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“如 果 你 希望 能 够 迅速 掌握 正则 表达 式 ， 我 极力 推荐 此 书 。 
一 一 Www.regular-expressions.info 


“简明 扼要 、 轻 松 易 读 ， 非 常 优秀 的 入 门 书 。” 
一 一 Amazon.com 评语 


正则 表达 式 是 一 种 威力 无 比 强 大 的 武器 ， 可 以 完成 各 种 复杂 的 文本 处 理工 作 ， 被 称 为 程序 员 的 
“瑞士 军刀 ”。 

本 书 是 全 球 程序 员 公认 的 正则 表达 式 最 佳 速成 教材 。 与 动 纯 几 百 页 的 同类 书 相 比 ， 本 书 的 最 大 
优势 是 精 选 正 则 表达 式 中 最 常用 、 最 重要 的 知识 ， 通 过 简明 又 实用 的 示例 ， 从 简单 的 文本 匹配 开始 ， 
循序 渐进 地 介绍 更 高 级 的 内 容 ， 包 括 回溯 引用 、 前 后 查找 、 贱 入 条 件 ， 等 等 。 而 且 书 中 的 内 容 在 保 
持 语言 和 平台 中 立 的 同时 ， 还 兼顾 了 各 种 平台 之 间 的 差异 。 通 过 阅读 本 书 ， 读 者 能 够 在 轻松 的 氛围 
中 迅速 掌握 正则 表达 式 的 精髓 ， 并 可 立即 运用 所 学 ， 解 决 实际 问题 。 


BEn OFta 是 世界 知名 的 技术 作家 ， 也 是 Adobe 技术 界 最 为 知名 的 专家 之 一 ， 目 前 担 
和 贡 司 的 高 级 技术 推广 专家 。 他 具有 计算 机 行业 20 多 年 工作 经 验 ， 多 年 来 撰写 了 十 几 本 


装 术 图 书 ， 其 中 不 少 是 世界 畅销 书 ， 已 被 翻译 为 十 几 种 文字 。 除 本 书 外 ， 他 撰写 的 《SQL 必 知 必 
甜 》 条 由 和 人民 邮电 出 版 社 出 版 。 读 者 可 以 通过 他 的 个 人 网 站 http://www.fortacom 了 解 更 多 信息 。 
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内 容 提 要 
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计算 机 平台 上 都 可 以 用 它 来 完成 各 种 复杂 的 文本 处 理工 作 。 本 书 从 简单 的 文本 
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正则 表达 式 (regular expression〉 和 正则 表达 式 语言 已 经 出 现 很 多 年 
了 。 上 正则 表达 式 的 专家 们 早 就 掌握 了 这 种 威力 无 比 强大 的 武器 ， 它 可 以 
用 来 完成 各 种 复杂 的 文本 处 理工 作 。 更 重要 的 是 ， 这 种 武器 可 以 在 几乎 
所 有 的 程序 设计 语言 里 和 几乎 所 有 的 计算 机 平台 上 使 用 。 


这 是 个 好 消息 ， 但 我 还 要 告诉 你 一 个 坏 消 息 : 长 期 以 来 ， 只 有 一 些 
真正 的 专家 才能 真正 掌握 正则 表达 式 。 甚 至 有 很 多 人 根本 没有 听 说 过 正 
则 表达 式 这 个 概念 ， 更 不 用 说 用 它们 来 解决 问题 了 。 至 于 少数 勇于 涉猎 
正则 表达 式 领 域 的 人 们 ， 又 往往 会 因为 正则 表达 式 难 以 理解 而 浅 学 辑 目 
或 总 是 在 原 地 徘徊 。 这 不 能 不 说 是 一 种 悲哀 ， 因 为 正则 表达 式 其 实 并 没 
有 人 们 想像 中 的 那么 复杂 。 只 要 你 能 清晰 地 理解 你 想 要 解决 的 问题 并 学 
会 如 何 使 用 正则 表达 式 ， 就 可 以 轻而易举 地 解决 这 些 问题 。 


正则 表达 式 不 为 大 多 数 人 所 掌握 的 原因 之 一 是 关于 这 方面 的 好 资料 
太 少 了 。 虽 然 有 很 多 网 站 在 吹 嘎 它 们 的 正则 表达 式 教程 如 何 全 面 ， 但 实 
际 情况 却 是 高 质量 的 正则 表达 式 学 习 资 源 相当 稀缺 。 即 便 能 够 找到 几 本 
介绍 正则 表达 式 的 书籍 ， 它 们 又 往往 过 于 偏重 语法 而 显得 不 够 实用 一 一 
知道 如 何 定义 {或 是 知道 + 与 * 之 间 的 区 别 并 不 等 于 真正 掌握 了 正则 表达 
式 的 用 法 。 在 笔者 看 来 ， 那 些 书籍 反而 把 简单 的 问题 弄 得 更 复杂 了 : 在 
学 习 和 使 用 正则 表达 式 的 时 候 ， 重 要 的 并 不 是 你 知道 多 少 个 特殊 字符 ， 
而 是 你 会 不 会 运用 它们 去 解决 实际 问题 。 

你 拿 在 手 里 的 这 本 书 并 不 打算 成 为 一 本 正则 表达 式 的 大 全 。 如 果 你 
想 要 的 是 那样 一 本 书 ， 你 应 该 去 阅读 Jeffrey Friedl 编 写 的 Mastering 
Regular Expressions 《OReilly 出 版 公司 ，ISBN 0596002890)。Friedl 先 生 
是 业内 公认 的 正则 表达 式 专 家 ， 他 的 书 绝对 是 这 方面 最 权威 和 全 面 的 著 
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作 。 本 人 对 Friedl 先 生 没 有 丝毫 成 见 ， 但 他 的 书 不 适合 初学 者 也 是 实情 ; 
如 果 你 只 打算 尽快 完成 手头 的 工作 而 不 是 要 钻研 正则 表达 式 的 内 部 原理 
的 话 ， 他 的 书 也 不 很 适用 。 这 并 不 是 说 那 本 书 里 的 信息 没有 用 ， 只 是 它 
在 你 想 要 给 HTML 表 单 添加 一 些 验证 功能 或 者 只 想 对 解析 的 文本 进行 替 
换 的 时 候 派 不 上 什么 用 场 。 如 果 你 想 尽快 学 会 正则 表达 式 的 基本 用 法 ， 
你 将 发 现 自己 陷入 了 一 个 两 难 境 地 : 要 么 找 不 到 简明 易学 的 参考 资料 ， 
要 么 找到 的 参考 资料 过 于 深奥 而 让 你 不 知 该 如 何 起 步 。 


这 正 是 促使 笔者 编写 本 书 的 原因 。 本 书 所 讲授 的 关于 正则 表达 式 知 
识 正 是 你 们 在 刚 起 步 时 最 需要 的 ， 我 们 将 从 简单 的 文本 匹配 开始 循序 渐 
进 地 向 大 家 介绍 许多 复杂 的 专题 ， 其 中 包括 回溯 引用 〈backreference， 或 
译 为 后 向 引用 )、 条 件 性 求 值 (conditional evaluation ) 和 前 后 查找 (looking- 
around), 等 等 。 本 书 最 大 的 优势 是 所 学 到 的 知识 可 以 立即 运用 于 实践 中 : 
我 们 在 每 章 里 都 为 大 家 准备 了 许多 简明 又 实用 的 示例 ， 它 们 可 以 帮助 你 
全 面 、 系 统 、 快 速 地 掌握 正则 表达 式 并 运用 它们 去 解决 实际 问题 ， 而 每 
章 在 10 分 钟 甚至 更 短 的 时 间 里 就 可 以 学 完 。 


还 等 什么 ， 赶 快 翻 到 第 1 章 开始 今天 的 学 习 吧 ， 你 肯定 会 立刻 感受 到 
正则 表达 式 的 强大 威力 。 


目标 读者 

本 书 的 目标 读者 是 以 下 几 类 人 员 : 

口 第 一 次 接触 正则 表达 式 。 

口 希望 自己 能 够 快速 掌握 正则 表达 式 的 基本 用 法 。 

口 想 使 用 一 种 强大 的 工具 〈 虽 然 它 不 那么 容易 掌握 ) 去 解决 实际 问 
题 。 

口 正在 开发 Web 应 用 软件 并 需要 进行 复杂 的 表单 和 文本 处 理 。 

口 正 使 用 着 Perl、ASP、Visual Basic、.NET、C#、Java、JSP、PHP、 
ColdFusion 语 言 (或 更 多 其 他 程序 设计 语言 );， 希 望 在 开发 的 应 用 


程序 里 使 用 正则 表达 式 。 
口 希望 在 不 求助 于 其 他 人 的 前 提 下 尽快 掌握 正则 表达 式 。 
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正则 表达 式 入 门 





在 本 章 里 ， 你 将 学 习 何 为 正则 表达 式 以 及 它们 可 以 帮助 你 做 些 什么 。 


1.1 正则 表达 式 的 用 途 


正则 表达 式 (regular expression， 简 称 regex) 是 一 种 工具 ， 和 其 他 工 
具 一 样 ， 它 是 人 们 为 了 解决 某 一 类 专门 的 问题 而 发 明 的 。 要 想 理解 正则 
表达 式 及 其 功用 ， 最 好 的 办 法 是 了 解 它们 可 以 解决 什么 样 的 问题 。 


请 考虑 以 下 几 个 场景 : 


口 你 正在 搜索 一 个 文件 ， 这 个 文件 里 包含 着 单词 car (不 区 分 字母 
大 小 写 ), 但 你 并 不 想 把 包含 着 字符 串 car 的 其 他 单词 (比如 scar、 
carry 和 incarcerate， 等 等 ) 也 找 出 来 。 

口 你 打算 用 一 种 应 用 服务 器 来 动态 地 生成 一 个 Web 网 页 以 显示 从 某 
个 数据 库 里 检索 出 来 的 文本 。 在 那些 文本 里 可 能 包含 着 一 些 URL 
地 址 字符 串 ， 而 你 希望 那些 URL 地 址 在 最 终生 成 的 页 面 里 是 可 点 
击 的 (也 就 是 说 , 你 打算 生成 一 些 合 法 的 HTML 代 码 一 一 <A HREF> 
</A> 一 一 而 不 仅仅 是 普通 的 文本 )。 

口 你 创建 了 一 份 包含 着 一 张 表 单 的 Web 页 面 ， 这 张 表 单 用 来 收集 用 
户 信息 ， 其 中 包括 一 个 电子 邮件 地 址 。 你 需要 检查 用 户 给 出 的 电 
子 邮 件 地 址 是 否 符合 正确 的 语法 格式 。 

口 你 正在 编辑 一 段 源 代码 并 且 要 把 所 有 的 size 都 替换 为 isize， 但 
这 种 替换 仅 限于 单词 size 本 身 而 不 涉及 那些 包含 着 字符 串 size 
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口 你 正在 显示 一 份 计算 机 文件 系统 中 所 有 文件 的 清单 ， 但 你 只 想 把 
文件 名 里 包含 着 Application 字 样 的 文件 列举 出 来 。 
口 你 正在 把 一 些 数 据 导入 应 用 程序 。 那些 数据 以 制 表 符 作 为 分 隔 符 ， 
但 你 的 应 用 程序 要 支持 CSV 格 式 (每 条 记录 独占 一 行 , 同一 条 记 
录 里 的 各 项 数据 之 间 用 逗号 分 隔 并 允许 被 括 在 引号 里 面 )。 
口 你 需要 在 文件 里 搜索 某 个 特定 的 文本 ， 但 你 只 想 把 出 现在 特定 位 
置 的 〈 比 如 每 行 的 开头 或 是 每 条 语句 的 结尾 ) 找 出 来 。 
以 上 场景 都 是 大 家 在 编写 程序 时 经 常会 遇 到 的 问题 ， 用 任何 一 种 支 
持 条 件 处 理 和 字符 串 操 作 的 编程 语言 都 可 以 解决 它们 一 一 但 问题 是 你 的 
解决 方案 将 会 变 得 十 分 复杂 。 比 较 容易 想到 的 办 法 是 ， 用 一 些 循环 来 依 
次 过 历 那 些 单词 或 字符 并 在 循环 体 里 面 用 一 系列 if 语句 来 进行 测试 ， 这 
往往 意味 着 你 需要 使 用 大 量 的 标志 来 标记 你 已 经 找到 了 什么 ， 你 还 没有 
找到 什么 ， 还 需要 检查 空白 字符 和 特殊 字符 ， 等 等 。 而 这 一 切 都 需要 以 
手工 方式 来 进行 。 
刃 一 种 解决 方案 是 使 用 正则 表达 式 。 上 述 问 题 都 可 以 用 一 些 精心 构 
造 的 语句 一 一 或 者 说 一 些 由 文本 和 特殊 指令 构成 的 高 度 简练 的 字符 串 来 
解决 ， 比 如 像 下 面 这 样 的 语句 : 
\b[Cc] [Aa] [Rr]\b 









侠 f 欧 注意 如 果 你 现在 还 看 不 懂 这 一 行 ， 先 别 着 急 。 你 很 快 就 会 知 
ff 道 它 的 含义 是 什么 


1.2 ”如 何 使 用 正则 表达 式 


如 果 认 真 思考 一 下 那些 问题 场景 ， 你 就 会 发 现 它们 不 外 乎 两 种 情况 : 
一 种 是 查找 特定 的 信息 (搜索 ), 另 一 种 是 查找 并 编辑 特定 的 信息 (替换 )。 
事实 上 ， 从 根本 上 来 讲 ， 那 正 是 正则 表达 式 的 两 种 基本 用 途 : 搜索 和 替 
换 。 给 定 一 个 正则 表达 式 ， 它 要 么 匹配 一 些 文本 进行 一 次 搜索 )， 要 么 
匹配 并 替换 一 些 文本 〈 进 行 一 次 替换 )。 
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1.2.1 用 正则 表达 式 进行 搜索 


正则 表达 式 的 主要 用 途 之 一 是 搜索 人 化 多 疹 的 文本 ， 比 如 刚才 描述 
_ 的 搜索 单词 car 的 场景 : 你 要 把 car、CAR、Car， 或 CaR 都 找 出 来 ， 但 这 
只 是 整个 问题 比较 简单 的 一 部 分 (有 许多 搜索 工具 都 可 以 完成 不 区 分 字 
母 大 小 写 的 搜索 )。 比较 困难 的 部 分 是 确保 scar、carry 和 incarcerate 
之 类 的 单词 不 会 被 匹配 到 。 一 些 比较 高 级 的 编辑 器 提供 了 “Match Only 
Whole Word〔 仪 匹配 整个 单词 )” 选 项 ， 但 还 有 许多 编辑 器 并 不 具备 这 一 
功能 ， 而 你 往往 无 法 在 你 正在 编辑 的 文档 里 做 出 这 种 调整 。 使 用 正则 表 
达 式 而 不 是 纯 文 本 car 进 行 搜索 就 可 以 解决 这 个 问题 。 


提示 想 知 道 如 何 解 决 这 个 问题 吗 ? 你 们 其 实 已 经 见 过 答案 


了 它 就 是 我 们 刚才 给 出 的 示例 语句 : \b[Cc] [Aa][Rr]\b 





请 注意 ,“ 等 于 ”比较 (比如 说 ， 用 户 给 出 的 电子 邮件 地 址 是 否 匹 配 
这 个 正则 表达 式 ? ) 本 质 上 也 是 一 种 搜索 操作 ， 这 种 搜索 操作 会 对 用 户 
所 提供 的 整个 字符 串 进行 搜索 以 寻找 一 个 匹配 。 与 此 相对 的 是 子 字 符 串 
搜索 ， 子 字符 串 搜 索 是 “搜索 ”这 个 词 的 普通 含义 。 


1.2.2 ”用 正则 表达 式 进行 替换 


正则 表达 式 搜索 的 威力 非常 强大 ， 非 常 有 用 ， 而 且 比 较 容 易学 习 和 
掌握 。 本 书 的 许多 章节 和 示例 都 与 “匹配 ”有 关 。 不 过 ， 正 则 表达 式 的 
真正 威力 体现 在 替换 操作 方面 ， 比 如 我 们 刚才 所 描述 的 需要 把 URL 地 址 
字符 串 替 换 为 可 点 击 URL 地 址 的 场景 : 这 需要 先 把 相关 文本 里 的 URL 地 
址 字符 串 找 出 来 〈 比 如 说 ， 通 过 搜索 以 http: /1/ 或 https:// 开 头 、 以 名 
号 、 运 号 或 空白 字符 结尾 的 字符 串 )， 再 把 找到 的 URL 地 址 字符 串 替换 为 
HTML 语 言 的 “<A HREF=…> … </A>” 元 素 ， 如 下 所 示 : 

http://www.forta.com/ 

替换 结果 : 

<A HREF="http://www.forta.com">http://ww.forta.com/</A> 


绝 大 多 数 应 用 程序 的 “Search and Replace”( 搜 索 和 替换 ) 选项 都 可 
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以 完成 这 种 替换 操作 ， 但 使 用 一 个 正则 表达 式 来 完成 这 个 任务 将 简单 得 
让 人 难以 置信 。 


1.3 ”什么 是 正则 表达 式 


现在 ， 你 已 经 知道 正则 表达 式 是 用 来 干什么 的 了 ， 我 们 再 来 给 它 下 
个 定义 。 简 单 地 说 ， 正 则 表达 式 是 一 些 用 来 匹配 和 处 理 文本 的 字符 串 。 
正则 表达 式 是 用 正则 表达 式 语言 创建 的 ， 这 种 语言 的 用 途 就 是 为 了 解决 
我 们 前 面 所 描述 的 种 种 问题 。 与 其 他 程序 设计 语言 一 样 ， 正 则 表达 式 语 
言 也 有 需要 你 们 去 学 习 的 特殊 语法 和 指令 ， 它 们 正 是 本 书 要 教 给 大 家 的 
东西 。 


正则 表达 式 语言 并 不 是 一 种 完备 的 程序 设计 语言 ， 它 甚至 算 不 上 是 
一 种 能 够 直接 安装 并 运行 的 程序 。 更 准确 地 说 ， 正 则 表达 式 语 言 是 内 置 
于 其 他 语言 或 软件 产品 里 的 “迷你 ”语言 。 好 在 现在 几乎 所 有 的 语言 或 
工具 都 支持 正则 表达 式 ， 但 是 正则 表达 式 与 你 正在 使 用 的 语言 或 工具 可 
以 说 毫 无 相似 之 处 。 上 正则 表达 式 语 言 虽然 也 被 称 为 一 种 语言 ， 但 它 与 人 
们 对 语言 的 印象 相去 甚 远 。 


生 净 注意 正则 表达 式 起 源 于 1950 年 代 在 数学 领域 的 一 些 研究 工 
= 作 。 几 年 之 后 ， 计 算 机 领域 借鉴 那些 研究 工作 的 成 果 和 思路 开 
发 出 了 Unix 世 界 里 的 Perl 语 言 和 grep 等 工具 程序 。 在 许多 年 里 ， 


正则 表达 式 只 流行 于 Unix 平 台 (Unix 程 序 员 用 它们 来 解决 我 们 
前 面 所 描述 的 各 种 问题 )， 但 这 种 情况 早已 发 生 了 变化 ， 现 在 
几乎 所 有 的 计算 平台 都 支持 正则 表达 式 , 只 是 具体 方式 和 支持 
程度 略 有 差异 而 已 。 





说 完 这 些 掌故 ， 我 们 再 来 看 几 个 例子 。 下 面 都 是 合法 的 正则 表达 式 
(我 们 稍 后 再 解释 它们 的 用 途 ): 

DD Ben 

辟 | 

Dww\ .forta\ .com 
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口 [a-ZA-Z0-9_.]* 

口 <[Hh1]1>.*</[Hh]1> 

OD \r\n\r\in 

QD \d{3,3}-\d{3,3}-\d{4,4} 


请 注意 ， 语 法 是 正则 表达 式 最 容易 掌握 的 部 分 ， 真 正 的 挑战 是 学 会 
如 何 运 用 那些 语法 把 实际 问题 分 解 为 一 系列 正则 表达 式 并 最 终 解决 。 与 
学 习 其 他 程序 设计 语言 一 样 ， 只 靠 读 书 是 学 不 会 如 何 灵活 运用 语法 正则 
的 ， 你 必须 通过 亲身 实践 才能 真正 掌握 它们 。 


1.4 ”使 用 正则 表达 式 


正如 前 面 解 释 的 那样 ， 不 存在 所 谓 的 正则 表达 式 程序 ， 它 既 不 是 可 
以 直接 运行 的 应 用 程序 ， 也 不 是 可 以 从 哪里 购买 或 下 载 来 的 软件 。 在 绝 
大 多 数 的 软件 产品 、 编 程 语 言 、 工 具 程 序 和 开发 环境 里 ， 正 则 表达 式 语 
言 都 已 被 实现 。 


正则 表达 式 的 使 用 方法 和 具体 功能 ， 在 不 同 的 应 用 程序 /语言 中 各 有 
不 同 。 一 般 来 说 ， 应 用 程序 大 多 使 用 菜单 选项 和 对 话 框 来 访问 正则 表达 
式 ， 而 程序 设计 语言 大 都 在 函数 或 对 象 类 中 使 用 正则 表达 式 。 


此 外 ， 并 非 所 有 的 正则 表达 式 实现 都 是 一 样 的 。 在 不 同 的 应 用 程序 / 
言 里 ， 正 则 表达 式 的 语法 和 功能 往往 会 有 明显 〈 有 时 也 不 那么 明显 ) 
， 


附录 A 对 支持 正则 表达 式 的 许多 应 用 程序 和 语言 在 这 方面 的 细节 进 
行 了 汇总 。 在 继续 学 习 下 一 章 之 前 ， 你 应 该 先 熟 悉 一 下 附录 A， 看 看 
你 们 正在 使 用 的 应 用 程序 或 语言 在 正则 表达 式 方 面 都 有 哪些 与 众 不 同 
之 处 。 

为 了 帮助 大 家 尽快 入 门 ， 我 们 在 这 本 书 的 配套 网 页 http: //www .forta. 
com/books/0672325667/ 上 准备 了 一 个 名 为 “Regular Expression Tester (下 
则 表达 式 测 试 器 )” 的 工具 软件 供 大 家 下 载 。 这 个 基于 Web 的 工具 软件 有 
好 几 种 版 本 ， 它 们 分 别 对 应 着 一 些 比较 流行 的 应 用 服务 器 和 编程 语言 ， 
还 有 一 个 版 本 是 专门 用 来 直接 测试 用 JavaScript 语 言 编写 出 来 的 正则 表达 
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式 的 。 附 录 C 对 这 个 工具 软件 的 用 法 进行 了 介绍 ， 这 个 工具 可 以 简便 、 快 
速 地 对 你 们 构造 出 来 的 正则 表达 式 进 行 测试 ， 这 对 大 家 的 学 习 肯 定 会 有 
很 大 的 帮助 。 


1.5 ”在 继续 学 习 之 前 
在 继续 学 习 之 前 ， 你 还 应 该 了 解 以 下 几 个 事实 : 


口 在 使 用 正则 表达 式 的 时 候 ， 你 将 发 现 几 乎 所 有 的 问题 都 有 不 止 一 
种 解决 方案 。 它 们 有 的 比较 简单 ， 有 的 比较 快速 ， 有 的 兼容 性 更 
好 ， 有 的 功能 更 全 。 这 么 说 吧 ， 在 编写 正则 表达 式 的 时 候 ， 只 有 
对 、 错 两 种 选择 的 情况 是 相当 少见 的 一 一 同一 个 问题 往往 会 有 多 
种 解决 方案 。 

口 正如 我 们 前 面 讲 过 的 那样 ， 正 则 表达 式 的 不 同 实 现 往 往 会 有 所 差 

异 。 在 编写 本 书 的 时 候 ， 我 们 已 尽 了 最 大 努力 来 保证 各 章 里 的 示 
例 能 适用 于 尽 可 能 多 的 实现 ; 但 有 些 差 异 和 不 兼容 是 无 法 回避 的 ， 
我 们 针对 这 种 情况 都 尽 可 能 地 进行 了 注 明 。 

口 与 其 他 程序 设计 语言 一 样 ,学 习 正则 表达 式 的 关键 是 实践 ， 实 践 ， 

再 实践 。 





2 注意 我 们 强烈 建议 大 家 在 学 习 本 书 的 过 程 中 能 够 亲自 实践 





每 一 个 示例 . 


1.6 ”小结 


正则 表达 式 是 文本 处 理 方面 功能 最 强大 的 工具 之 一 。 正 则 表达 式 语 
言 用 来 构造 止 则 表达 式 〈 最 终 构造 出 米 的 字符 串 就 称 为 正则 表达 式 )， 正 
[L9 ] 则 表达 式 用 来 完成 搜索 和 替换 操作 。 


第 2 章 
匹配 单个 字符 





在 本 章 里 ， 你 将 学 习 如 何 对 一 个 或 多 个 字符 进行 简单 的 字符 此 配 。 


2.1 匹配 纯 文 本 


Ben 是 一 个 正则 表达 式 。 因 为 本 身 是 纯 文本 ， 所 以 看 起 来 可 能 不 像 是 
一 个 正则 表达 式 ， 但 它 的 确 是 。 正 则 表达 式 可 以 包含 纯 文本 (甚至 可 以 
只 包含 纯 文本 )。 当 然 ， 像 这 样 使 用 正则 表达 式 是 一 种 浪费 ， 但 把 它 作为 
我 们 学 习 正则 表达 式 的 起 点 还 是 很 不 错 的 。 

我 们 来 看 一 个 例子 : 


Hello, my name is Ben. Please visit 
my website at http://www.forta.com/. 


正则 表达 式 
Ben 
结果 


Hello, my name is Ben. Please visit 
my website at http://www.forta.com/. 


这 里 使 用 的 正则 表达 式 是 纯 文本 ， 它 将 匹配 原始 文本 里 的 Ben。 [10] 


我 们 再 来 看 一 个 例子 ， 它 使 用 了 与 刚才 相同 的 原始 文本 和 男 外 一 个 
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Hello, my name 1S Ben. Please visit 
my website at http://www.forta.com/. 


正则 表达 式 
my 


结果 


Hello, my name is Ben. Please visit 
my website at http://www.forta.com/. 


分 析 - 
my 也 是 静态 文本 ， 它 在 原始 文本 里 找到 了 两 个 匹配 结果 。 
2.1.1 有 多 个 匹配 结果 


绝 大 多 数 正则 表达 式 引 擎 的 默认 行为 是 只 返回 第 1 个 匹配 结果 。 具 体 
到 上 面 那个 例子 ， 原 始 文 本 里 的 第 1 个 my 通常 是 一 个 , 但 第 2 个 往往 不 是 。 
怎样 才能 把 两 个 或 更 多 个 匹配 结果 都 找 出 来 呢 ? 绝 大 多 数 正则 表达 
式 的 实现 都 提供 了 一 种 能 够 把 所 有 的 匹配 结果 全 部 找 出 来 的 机 制 (通常 
返回 为 一 个 数组 或 是 其 他 的 专用 格式 )。 比 如 说 ， 在 JavaScript 里 ， 可 选 的 
g (意思 是 “global”， 全 局 ) 标志 将 返回 一 个 包含 着 所 有 匹配 的 结果 数组 。 


注意 如 果 你 想 知道 在 你 正在 使 用 的 语言 或 工具 里 如 何 进行 
全 局 匹配 ， 请 参阅 本 书 的 附录 A。 


。 
(S13 
i 





2.1.2 ”字母 的 大 小 写 问 题 


正则 表达 式 是 区 分 字母 大 小 写 的 ， 所 以 Ben 不 匹配 ben。 不 过 ,， 绝 
大 多 数 正则 表达 的 式 实 现 也 支持 不 区 分 字母 大 小 写 的 匹配 操作 。 比 如 
说 ，JavaScript 用 户 可 以 用 i 标志 来 强制 执行 一 次 不 区 分 字母 大 小 写 的 
搜索 。 





注意 ”如果 你 想 知道 你 正在 使 用 着 的 语言 或 工具 里 如 何 进行 
不 区 分 字母 大 小 写 的 搜索 操作 ， 请 参阅 本 书 的 附录 A， 
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2.2 ”匹配 任意 字符 


前 面 见 到 的 正则 表达 式 都 是 些 静 态 的 纯 文本 ， 它 们 根本 体现 不 出 正 
则 表达 式 的 威力 。 下 面 ， 我 们 一 起 来 看 看 如 何 使 用 正则 表达 式 去 匹配 不 
可 预知 的 字符 。 

在 正则 表达 式 里 , 特殊 字符 (或 字符 集合 ) 用 来 给 出 要 搜索 的 东西 。 
.字符 (英文 句号 ) 可 以 匹配 任何 一 个 单个 的 字符 。 


提示 “如果 你 曾经 使 用 过 DOS 的 文件 搜索 功能 ， 你 将 发 现 正 则 
表达 式 里 的 .字符 相当 于 DOS 的 ?字符 。SQL 用 户 将 注意 到 正则 





表达 式 里 的 ,字符 相当 于 SQL 中 的 _( 下划线 ) 字符 。 


于 是 ， 用 正则 表达 式 c.t 进 行 的 搜索 将 匹配 到 cat 和 cot《〈 还 能 匹配 
到 一 些 毫 无 意义 的 单词 )。 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
europe2.xls 
na1.xls 
na2.xls 
sal.xls 


sales. 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apaci1.xls 
europe2.xls 
na1.xls 
na2.xls 
sal.xls 
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正则 表达 式 sales. 将 把 由 字符 串 sales 和 另外 一 个 字符 构成 的 文件 
名 查找 出 来 。9 个 文件 里 有 3 个 与 这 个 模式 〈pattern) 相 匹 配 。 


注意 ”正则 表达 式 可 以 用 来 匹配 包含 着 字符 串 内容 的 模式 。 匹 


配 的 并 不 总 是 整个 字符 串 ， 而 是 与 某 个 模式 相 匹配 的 字符 一 一 
即使 它们 只 是 整个 字符 串 的 一 部 分 。 在 上 面 的 例子 里 ， 我 们 使 
用 的 正则 表达 式 并 不 能 匹配 整个 文件 名 ， 它 只 匹配 了 文件 名 的 
一 部 分 。 如 果 你 需要 把 某 个 正则 表达 式 的 匹配 结果 传递 到 其 他 
代码 或 应 用 程序 里 做 进一步 处 理 ， 就 必须 记 住 这 一 细节 差异 。 





.字符 可 以 匹配 任何 单个 的 字符 、 字 母 、 数 字 甚 至 是 .字符 本 身 。 


sales.xls 
sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apaci1.xls 
europe2.xls 
nal.xls 
na2.xls 
sal.xls 


sales. 
结果 


sales.xls 
sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
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apaci.xls 
europe2.xls 
nai.xls 
na2.xls 
sal.xls 


这 个 例子 比 上 一 个 多 了 一 个 sales .x1ls 文 件 。 因为 .能够 匹配 任何 一 
个 单个 的 字符 ， 所 以 这 个 文件 也 与 模式 sales . 相 匹 配 。 


在 同一 个 正则 表达 式 里 允许 使 用 多 个 .字符 ， 它 们 既 可 以 连续 出 现 
(一 个 接着 一 个 一 一 . .将 匹配 任意 两 个 字符 )， 也 可 以 间隔 着 出 现在 模式 
的 不 同位 置 。 


我 们 再 来 看 一 个 使 用 了 相同 原始 文本 的 例子 : 把 以 na (表示 北美 ) 或 
sa (表示 南美 开头 的 文件 不管 它们 后 面 跟着 一 个 什么 数字 ) 找 出 来 。 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
europe2.xls 
nal.xls 
na2.xls 
sai.xls 


.a. 
结果 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apaci1.xls 
europe2.xls 
nal.xls 
na2.xls 
sai.xls 
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分 析 | 


正则 表达 式 .a. 把 na1、na2 和 sa1 找 了 出 来 ， 但 它 同 时 还 找到 了 4 个 
预料 之 外 的 匹配 结果 。 为 什么 会 这 样 ? 因为 我 们 使 用 的 模式 将 与 第 2 个 字 
符 是 a 的 任意 3 个 字符 相 匹 配 。 


我 们 真正 需要 的 是 后 面 再 紧 跟着 一 个 英文 句号 的 .a. 的 模式 。 我 们 再 
来 试 一 次 : 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
euUrope2.xls 
na1.xls 
na2.xls 
sal.xls 


-aA.. 


sales1.xls 
orders3.xls 
sales2.xls 
Sales3.xls 
apac1.x1lSs 
europe2.xls 
nai.xls 
na2.xls 
sai.xls 


分 析 | 


.a. .并 不 比 .a. 好 多 少 ;， 新 增加 的 .将 匹配 任何 一 个 多 出 来 的 字符 
(不 管 它 是 什么 )。 既然. 是 一 个 能 够 与 任何 一 个 单个 字符 相 匹 配 的 特殊 字 
符 ， 我 们 怎样 才能 搜索 .本 身 呢 ? 


2.3 ”匹配 特殊 字符 
.字符 在 正则 表达 式 里 有 着 特殊 的 含义 。 如 果 模 式 里 需要 一 个 .， 就 
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要 想 办 法 来 告诉 正则 表达 式 你 需要 的 是 .字符 本 身 而 不 是 它 在 正则 表达 
式 里 的 特殊 含义 。 为 此 ， 你 必须 在 .的 前 面 加 上 一 个 \( 反 斜 杠 ) 字符 来 
对 它 进行 转 义 。\ 是 一 个 元 字符 〈metacharacter， 表 示 “ 这 个 字符 有 特殊 
含义 ， 而 不 是 字符 本 身 含义 ”)。 


我 们 再 来 验证 一 次 刚才 的 例子 ， 这 次 我 们 使 用 了 \ 对 .进行 转 义 ; 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
europe2.xls 
nal.xls 
na2.xls 
sal.xls 


正则 表达 式 
.a.\.xls 
结果 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
europe2.xls 
na1.xls 
na2.xls 
sai1.xls 


分 析 


.a.\ .Xls 解 决 了 问题 。 第 1 个 .匹配 hn (在 前 两 个 匹配 结果 里 ) 或 s 
(在 第 3 个 匹配 结果 里 )， 第 2 个 .匹配 1 (在 第 1 个 和 第 3 个 匹配 结果 里 ) 或 2 
《在 第 2 个 匹配 结果 里 )。 接 下 来 ，\ .匹配 文件 名 与 扩展 名 之 闻 的 分 隔 符 . 
本 身 ， 最 后 的 x1s 匹 配 它 本 身 。( 事 实 上 ， 即 使 没有 最 后 面 的 xl1s， 这 次 
搜索 的 结果 也 会 与 我 们 预想 的 一 样 ， 加 上 xls 可 以 避免 匹配 到 诸如 
sa3 .doc 之 类 的 文件 名 。) 


在 正则 表达 式 里 ，\ 字 符 永 远 出 现在 一 个 有 着 特殊 含义 的 字符 序列 的 
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开头 ， 这 个 序列 可 以 由 一 个 或 多 个 字符 构成 。 刚 才 看 到 的 是 \ .序列 ， 在 
后 面 的 章节 里 还 会 看 到 更 多 使 用 了 \ 字 符 的 例子 。 


我 们 将 在 第 4 章 里 对 特殊 字符 的 用 法 做 专题 讲解 。 


x 次 注意 如 果 需 要 搜索 \ 本 身 ， 就 必须 对 \ 字 符 进行 转 义 ; 相应 的 
<4 转 义 序列 是 两 个 连续 的 反 儿 杠 字符 \\、 


提示 我 们 刚才 讲 过 ，. 可 以 匹配 任何 一 个 字符 ， 这 一 说 法 并 
非 绝对 准确 。 在 绝 大 多 数 的 正则 表达 式 实现 里 ，. 只 能 匹配 除 
换行 符 以 外 的 任何 单个 字符 。 





2.4 小 结 


正则 表达 式 经 常 被 简称 为 模式 ， 它 们 其 实 是 一 些 由 字符 构成 的 字符 
串 。 这 些 字符 可 以 是 普通 字符 ( 纯 文本 ) 或 元 字符 (有 特殊 含义 的 特殊 
字符 )。 在 这 一 章 里 ， 我 们 介绍 了 如 何 使 用 普通 字符 和 元 字符 去 匹配 单个 
的 字符 。. 可 以 匹配 任何 字符 。\ 用 来 对 字符 进行 转 义 。 在 正则 表达 式 里 ， 
[18] 有 特殊 含义 的 字符 序列 总 是 以 \ 字 符 开头 。 





B1174g, 
“人 
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匹配 一 组 字符 


在 本 章 里 ， 你 将 学 习 如 何 与 字符 集合 打交道 。 与 可 以 匹配 任意 单个 
字符 的 .字符 (参见 第 2 章 ) 不 同 ， 字 符 集合 只 能 匹配 特定 的 字符 和 字符 
区 间 。 


3.1 匹配 多 个 字符 中 的 某 一 个 


第 2 章 介绍 的 .字符 可 以 匹配 任意 单个 字符 。 在 第 2 章 的 最 后 一 个 例子 
里 ， 我 们 使 用 了 .a 来 匹配 na 和 sa。 现 在 ， 如 果 在 那 份 文件 清单 里 增加 了 
一 个 名 为 ca1 .x1ls 的 文件 ， 而 你 仍 只 想 找 出 na 和 sa， 你 该 怎么 办 ? 别 忘 
了 ，. 也 能 匹配 c， 所 以 文件 名 cal.x1s 也 会 被 找 出 。 


既然 只 想 找 出 n 和 s, 使 用 可 以 匹配 任意 字符 的 .显然 不 行 一 一 我 们 不 
需要 匹配 任意 字符 ， 我 们 只 想 匹 配 n 和 s 这 两 个 字符 。 在 正则 表达 式 里 ， 
我 们 可 以 使 用 元 字符 [和 ] 来 定义 一 个 字符 集合 。 在 使 用 [和 ] 定 义 的 字符 
集合 里 ， 这 两 个 元 字符 之 间 的 所 有 字符 都 是 该 集合 的 组 成 部 分 ， 字 符 集 
合 的 匹配 结果 是 能 够 与 该 集合 里 的 任意 一 个 成 员 相 匹配 的 文本 。 


下 面 这 个 例子 与 第 2 章 里 的 最 后 一 个 例子 相似 ， 但 我 们 在 这 次 的 正则 
表达 式 里 使 用 了 一 个 字符 集合 : 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
europe2.xls 





} 
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nal.xls 
na2.xls 
sal.xls 
cal.xls 


正则 表达 式 
[ns]a.\.xls 
| 结果， 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1 .xl1s 
europe2.xls 
nal1.xls 
na2.xls 
sal.xls 
cal.xls 


分 析 


这 里 使 用 的 正则 表达 式 以 [ns] 开 头 ， 这 个 集合 将 匹配 字符 n 或 (但 
不 匹配 字符 c 或 其 他 字符 )。[ 和] 不 匹配 任何 字符 ， 它 们 只 负责 定义 一 个 
字符 集合 。 接 下 来 ， 正 则 表达 式 里 的 字符 a 将 匹配 一 个 a 字 符 ，. 将 匹配 一 
个 任意 字符 ,\ .将 匹配 .字符 本 身 ，x1ls 将 匹配 字符 串 xLls。 从 结果 上 看 ， 
这 个 模式 只 匹配 了 3 个 文件 名 ， 与 我 们 的 预期 完全 一 致 。 


众 注意 虽然 结果 正确 ,但 模式 [ns]a.\.xls 并 不 是 最 正确 的 答 

和 雪 ， 如 果 那 份 文件 清单 里 还 有 一 个 名 为 Usa1 .xls 的 文件 ， 它 

也 会 被 匹配 出 来 。 这 里 涉及 了 位 置 匹配 问题 ， 而 我 们 将 在 第 6 
章 里 对 此 做 专题 讨论 。 


提示 正如 看 到 的 那样 ， 对 正则 表达 式 进行 测试 是 很 有 技巧 
的 。 验证 某 个 模式 能 不 能 获得 预期 的 匹配 结果 并 不 困难 ， 但 如 
何 验证 它 不 会 匹配 到 你 不 想 要 的 东西 可 就 没 那么 简单 了 。 





字符 集合 在 不 需要 区 分 字母 大 小 写 (或 者 是 只 须 匹配 某 个 特定 部 分 ) 
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的 搜索 操作 里 比较 常见 。 比 如 说 : 


The phrase "regular expression" is often 
abbreviated as RegEx or regex. 


正则 表达 式 
[Rrjeg[Ee]x 
结果 


The phrase "regular expression" is often 
abbreviated as RegEx or regex. 


这 里 使 用 的 模式 包含 着 两 个 字符 集合 : [Rr] 负责 匹配 字母 RB 和 r, [Ee] 
负责 匹配 字母 E 和 e。 这 个 模式 可 以 匹配 RegEx 和 regex, 但 不 匹配 REGEX。 





提示 “如 果 你 打算 进行 一 次 不 需要 区 分 字母 大 小 写 的 匹配 ， 不 
使 用 这 个 技巧 也 能 达到 目的 。 这 种 模式 最 适合 用 在 从 全 局 看 需 


要 区 分 字母 大 小 写 ， 但 在 某 个 局 部 不 需要 区 分 字母 大 小 写 的 搜 
索 操作 里 。 





3.2 利用 字符 集合 区 间 


我 们 再 来 仔细 看 看 那个 从 一 份 文件 清单 里 找 出 特定 文件 的 例子 。 我 们 
刚才 使 用 的 模式 [ns]a.\.x1ls 还 存在 着 另外 一 个 问题 。 如 果 那 份 文件 清单 
里 有 一 个 名 为 sam.xls 的 文件 ， 结 果 会 怎样 ? 显然 ， 因 为 .可 以 匹配 所 有 
的 字符 而 不 是 仅 限于 数字 ,. 所 以 文件 sam.x1s 也 会 出 现在 匹配 结果 里 。 


这 个 问题 可 以 用 一 个 如 下 所 示 的 字符 集合 来 解决 : 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
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apac1.xls 
europe2.xls 
sam.xls 
nat.xils 
Na2.xls 
Sal1.X1S 
cal.xls 


正则 表达 式 


[ns]a[0123456789j\ .XLS 


SalesS1.x1l1S 
orders3.xls 
sales2.xls 
sales3.xls 
apaci.xls 
europe2.xls 
sam.xls 
nai.xls 
na2.xls 
sai1.xls 
cal.xls 


在 这 个 例子 里 , :我 们 改 用 了 另外 一 个 模式 ， 这 个 模式 的 匹配 对 象 是 : 
第 1 个 字符 必须 是 n 或 s， 第 2 个 字符 必须 是 a， 第 3 个 字符 可 以 是 任何 一 个 
数字 (因为 我 们 使 用 了 字符 集合 [61234567891)。 注意 , 文件 名 sam.xls 
没有 出 现在 匹配 结果 里 ， 这 是 因为 m 与 我 们 给 定 的 字符 集合 (10 个 数字 ) 
不 相 匹 配 。 


在 使 用 正则 表达 式 的 时 候 , 会 频繁 地 用 到 一 些 字符 区 间 (68~9、A-~2， 
等 等 )。 为 了 简化 字符 区 间 的 定义 ， 正 则 表达 式 提供 了 一 个 特殊 的 元 字 
符 一 一 字符 区 间 可 以 用 -( 连 字符 ) 来 定义 。 

下 面 还 是 刚才 那个 例子 ， 但 我 们 这 次 使 用 了 一 个 字符 区 间 : 


salesi1.xis 


Orders3.xls 
sales2.xls 
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sales3.xls 
apac1.xls 
europe2.xls 
sam.xls 
nal.xls 
na2.xls 
sal.xls 
cal.xls 


正则 表达 式 
[ns]ja[0-9]\.xls 
结果 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
europe2.xls 
sam.xls 
nai1.xlis 
na2.xls 
sa1.xls 
cal.xls 


模式 [6-9] 的 功能 与 和 (06123456789] 完 全 等 价 , 所 以 这 次 的 匹配 结果 
与 刚才 那个 例子 完全 一 样 。 
字符 区 间 并 不 仅 限 于 数字 ， 以 下 这 些 都 是 合法 的 字符 区 间 : 
口 A-Z， 匹 配 从 A 到 Z 的 所 有 大 写字 母 。 
口 a-z， 匹 配 从 a 到 z 的 所 有 小 写字 母 。 
口 A-F，[ 匹 配 从 A 到 F 的 所 有 大 写字 母 。 
口 A-z，[ 匹 配 从 ASCII 字 符 A 到 ASCII 字 符 z 的 所 有 字母 。 这 个 模式 一 
般 不 常用 ， 因 为 它 还 包含 着 [和 “等 在 ASCII 字 符 表 里 排列 在 Z 和 a 
之 间 的 字符 。 
字符 区 间 的 首 、 尾 字符 可 以 是 ASCII 字 符 表 里 的 任意 字符 。 但 在 实际 
工作 中 ， 最 常用 的 字符 区 间 还 是 数字 字符 区 间 和 字母 字符 区 间 。 
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提示 ”在 定义 一 个 字符 区 间 的 时 候 ， 一 定 要 避免 让 这 个 区 间 的 
9 尾 字 符 小 于 它 的 首 字 符 ( 例如 [3-1] )。 这 种 区 间 是 没有 意义 
的 ， 而 且 往往 会 让 整个 模式 失效 。 






注意 - ( 连 字符 ) 是 一 个 特殊 的 元 字符 ， 作 为 元 字符 它 只 能 
用 在 [和 ] 之 间 . 在 字符 集合 以 外 的 地 方 ，- 只 是 一 个 普通 字符 ， 


转 义 。 





在 同一 个 字符 集合 里 可 以 给 出 多 个 字符 区 间 。 比 如 说 ， 下 面 这 个 模 
式 可 以 匹配 任何 一 个 字母 (无 论 大 小 写 ) 或 数字 ， 但 除 此 以 外 的 其 他 字 
符 〈 既 不 是 数字 也 不 是 字母 的 字符 〉 都 不 匹配 : 
[A-Za-z0-9] 
这 个 模式 是 下 面 这 个 字符 集合 的 简写 形式 : 


[ABCDEFGHIJKLMNOPQRSTUVWXYZabcde 
wfghijklmnopqrstuvwxyz01234567890] 


正如 大 家 看 到 的 那样 , 字符 范围 使 得 正则 表达 式 的 语法 变 得 非常 简明 。 
下 面 是 男 一 个 例子 ， 这 次 要 查找 的 是 RGB 值 (用 一 个 十 六 进 制 数字 
给 出 的 红 、 绿 、 蓝 三 基色 的 组 合 值 ， 计 算 机 可 以 根据 RGB 值 把 有 关 的 文 
字 或 图 象 显示 为 由 这 三 种 颜色 按 给 定 比 例 调和 出 来 的 色彩 )。 在 网 页 里 ， 
RGB 值 是 以 #000000 (黑色 )、#FFFFF (白色 )、#F0000 (红色 ) 的 形 
式 给 出 的 。RGB 值 用 大 写 或 小 写字 母 给 出 均 可 ， 所 以 #F00ff〈 品 红色 ) 

也 是 合法 的 RGB 值 。 下 面 就 是 这 个 例子 ; 


<BODY BGCOLOR="#336633" TEXT="#FFFFFF" 
MARGINWIDTH="@" MARGINHEIGHT="0" 
TOPMARGIN="@" LEFTMARGIN="0"> 


#[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f] 
w[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f] 
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结果 | 


<BODY BGCOLOR="#336633" TEXT="#FFFFFF" 
MARGINWIDTH= "0” MARGINHEIGHT= "0" 
TOPMARGIN="0”LEFTMARGIN= "0"> 


| 分析 

这 里 使 用 的 模式 以 普通 字符 # 开 头 ， 随 后 是 6 个 同样 的 [6-9A-Fa-f] 
字符 集合 。 这 将 匹配 一 个 由 字符 # 开 头 ， 然 后 是 6 个 数字 或 字母 A 到 F (大 
小 写 均 可 ) 的 字符 串 。 


3.3” 取 非 匹 配 


字符 集合 通常 用 来 指定 一 组 必须 匹配 其 中 之 一 的 字符 。 但 在 某 些 场 
合 ， 我 们 需要 反 过 来 做 ， 给 出 一 组 不 需要 得 到 的 字符 。 换 名 话说， 除了 
那个 字符 集合 里 的 字符 ， 其 他 字符 都 可 以 匹配 。 


最 先 想到 的 办 法 是 ， 用 一 个 字符 集合 把 你 需要 的 字符 一 一 列举 出 来 ， 
但 如 果 只 需要 把 一 小 部 分 字符 排除 在 外 的 话 ， 那么 做 既 麻 烦 又 容易 有 遗 
漏 。 其 实 这 里 有 一 个 更 简明 的 办 法 : 用 元 字符 ^ 来 表明 你 想 对 一 个 字符 集 
合 进行 取 非 匹配 一 一 这 与 逻辑 非 运算 很 相似 ， 只 是 这 里 的 操作 数 是 字符 
集合 而 已 。 


sales1.xls 
orders3.xls 
sales2.xls 
sales3.xls 
apaci1.xls 
europe2.xls 
sam.xls 
nal.xls 
na2.xls 
sal.xls 
catl.xls 


[ns]Ja[“0-9]\.xls 
结果 


sales1.xls 
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orders3.xls 
sales2.xls 
sales3.xls 
apac1.xls 
europe2.xls 
sam.xls 
nal.xls 
na2.xls 
sal.xls 
cal.xls 


| 分析 

这 个 例子 里 使 用 的 模式 与 前 面 的 例子 里 使 用 的 模式 刚好 相反 。 前 面 
[0-9] 只 匹配 数字 ， 而 这 里 [^0-9] 匹 配 的 是 任何 不 是 数字 的 字符 。 也 就 
是 说 ，[ns]a[^0-9]\.xls 将 匹配 sam.xls， 但 不 匹配 na1.xls 、 
na2.xls 或 sal1 .xls。 





1 将 ”注意 “的 效果 将 作用 于 给 定 字符 集合 里 的 所 有 字符 或 字符 区 
:= 问 ， 而 不 是 仅 限于 紧 跟 在 “字符 后 面 的 那 一 个 字符 或 字符 区 间 . 






3.4 ”小结 


元 字符 [和 ] 用 来 定义 一 个 字符 集合 ， 其 含义 是 必须 匹配 该 集合 里 的 
字符 之 一 。 定 义 一 个 字符 集合 的 具体 做 法 有 两 种 ， 一 是 把 所 有 的 字符 都 
列举 出 来 : 二 是 利用 元 字符 -以 字符 区 间 的 方式 给 出 。 字 符 集合 可 以 用 元 
字符 “来 求 非 ; 这 将 把 给 定 的 字符 集合 强行 排除 在 匹配 操作 以 外 一 一 除了 
[26] 该 字符 集合 里 的 字符 ， 其 他 字符 都 可 以 被 匹配 。 


gy 
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本 书 第 一 次 提 到 元 字符 的 章节 是 第 2 章 。 在 这 一 章 里 ， 你 们 将 学 习 如 
何 使 用 更 多 的 元 字符 去 匹配 特定 的 字符 或 字符 类 型 。 


4.1 对 特殊 字符 进行 转 义 


在 介绍 其 他 元 字符 的 用 法 之 前 ， 我 们 认为 应 该 先 把 特殊 字符 的 转 义 
问题 向 大 家 解释 清楚 。 


元 字符 是 一 些 在 正则 表达 式 里 有 着 特殊 含义 的 字符 。 英 文句 号 〈.) 
是 一 个 元 字符 ， 它 可 以 用 来 匹配 任何 一 个 单个 字符 “〈 详 见 第 2 章 )。 类 似 
地 ， 左 方 括号 〈[) 也 是 一 个 元 字符 ， 它 标志 着 一 个 字符 集合 的 开始 〈 详 
见 第 3 章 )。 

因为 元 字符 在 正则 表达 式 里 有 着 特殊 的 含义 ， 所 以 这 些 字符 就 无 法 
用 来 代表 它们 本 身 。 比 如 说 ， 你 不 能 使 用 一 个 [来 匹配 [本 身 ， 也 不 能 使 
用 .来 贞 配 .本 身 。 来 看 一 个 例子 ， 我 们 打算 用 一 个 正则 表达 式 去 匹配 一 
个 包含 着 [和 ] 字 符 的 JavaScript 数 组 : 


var myArray = new Array( ); 





if (myArray[0] == 0) { 


} 


myArray[01] 


28 
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结果 


var myArray = new Array() ; 
if (myArray[0] == 0) { 


} 
分 析 


在 这 个 例子 里 ， 原 始 文 本 是 一 段 JavaScript 代 码 ， 止 则 表达 式 则 是 程 
序 员 在 使 用 一 个 文本 编辑 器 去 编写 JavaScript 代 码 时 经 常会 用 到 的 搜索 字 
符 串 。 我 们 的 本 意 是 用 这 个 正则 表达 式 把 代码 里 的 myArray[@] 记 号 找 出 
来 ， 可 结果 与 预期 完全 不 一 样 。 为 什么 会 这 样 ? 因为 [和 ] 在 正则 表达 式 
里 是 用 来 定义 一 个 字符 集合 《而 不 是 [和 ] 本 身 ) 的 元 字符 ， 所 以 ， 
myArray[0] 将 此 了 配 myArray 后 面 跟着 一 个 该 集合 成 员 的 情况 , 而 那个 集 
合 只 有 一 个 成 员 9。 因 此 ，myArray[0] 只 能 匹配 到 myArray@。 

正如 我 们 在 第 2 章 里 解释 的 那样 ， 在 元 字符 的 前 面 加 上 一 个 反 斜 杠 就 
可 以 对 它 进行 转 义 一 一 转 义 序列 \ .将 此 了 配 .本 身 ， 转 义 序 列 \[ 将 史 配 [ 本 
身 。 每 个 元 字符 都 可 以 通过 给 它 加 上 有 个 反 斜 杠 前 缀 的 办 法 来 转 义 ， 如 
此 得 到 的 转 义 序列 将 匹配 那个 字符 本 身 而 不 是 它 特殊 的 元 字符 含义 。 要 
想 匹 配 [ 和 ]， 就 必须 对 这 两 个 字符 进行 转 义 。 下 面 的 例子 与 刚才 的 问题 
完全 一 样 ， 但 我 们 这 次 对 正则 表达 式 里 的 元 字符 都 进行 了 转 义 : 

var myArray = new Array!(); 

if (myArray[0] == 0) { 

} 


正则 表达 式 


myArray\[0\] 


var myArray = new Array( ) ; 
if (myArrayf0]l == 0) { 


} 
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这 次 搜索 取得 了 预期 的 结果 。\[ 将 匹配 [，\] 将 匹配 ]， 所 以 
myArray\[O\] 匹 配 到 了 myArray[0] 。 


具体 到 这 个 例子 ， 用 一 个 正则 表达 式 来 进行 搜索 多 少 有 点 儿 小 题 大 
做 一 一 因为 一 个 简单 的 文本 匹配 操作 已 足以 完成 这 一 任务 ， 而 且 还 会 更 
容易 一 些 。 但 如 果 你 想 查 找 的 不 仅仅 是 myArray[0] ， 还 包括 了 
myArray[1]、myArray[2] 等 ， 用 一 个 正则 表达 式 来 进行 搜索 就 很 有 必 
要 了 。 有 具体 做 法 是 ， 对 [和 ] 进 行 转 义 ， 再 列 出 需要 在 它们 之 间 得 到 匹配 
的 字符 。 如 果 你 想 匹 配 数组 元 素 8 到 9， 你 构造 出 来 的 正则 表达 式 应 该 是 
下 面 这 个 样子 : 


myArray\[[0-9]\] 


提示 任何 一 个 元 字符 都 可 以 通过 给 它 加 上 一 个 反 斜 杠 字 符 
(\ ) 作为 前 组 的 办 法 来 转 义 ， 能 够 被 转 义 的 元 字符 并 不 仅 局 限 
于 我 们 这 里 提 到 的 那 几 个 。 





对 元 字符 进行 转 义 需要 用 到 \ 字 符 。 这 意味 着 \ 字 符 也 是 一 个 元 字 
符 一 一 它 的 特殊 含义 是 对 其 他 元 字符 进行 转 义 。 正如 你 在 第 2 章 里 看 到 的 
那样 ， 在 需要 [匹配 \ 本 身 的 时 候 ， 我 们 必须 把 它 转 义 为 \\。 

看 看 下 面 这 个 简单 的 例子 。 例 子 中 的 原始 文本 是 一 个 包含 着 反 斜 杠 
字符 的 文件 路 径 (用 于 DOS 和 Windows 系 统 )， 而 我 们 想 在 一 个 Linux 或 





Unix 系 统 上 使 用 这 个 路 径 也 就 是 说 ， 我 们 需要 把 这 个 路 径 里 的 反 斜 
杠 字符 (\) 全 部 替换 为 正 斜 杠 字 符 〈/): 


\home\ben\sales\ 
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\\ 
结果 


\home\ben\sales\ 


分 析 


\\ 匹 配 \， 总 共 找 到 了 4 个 匹配 。 如 果 你 在 这 个 正则 表达 式 里 只 写 出 
了 一 个 \ 的 话 ， 你 应 该 会 看 到 一 条 出 错 消息 。 这 是 因为 正则 表达 式 分 析 器 
会 认为 你 的 正则 表达 式 不 完整 ， 在 -- 个 完整 的 正则 表达 式 里 ， 字 符 \ 的 后 
面 永远 跟着 另 一 个 字符 。 


4.2 ”匹配 空白 字符 


元 字符 大 致 可 以 分 为 两 种 : 一 种 是 用 来 匹配 文本 的 〈 比 如 .)， 另 一 
种 是 正则 表达 式 的 语法 所 要 求 的 《比如 [和 ] )。 随 着 学 习 的 深入 ， 你 将 发 
现 越 来 越 多 的 这 两 种 元 字符 ， 而 我 们 现在 要 介绍 给 大 家 的 是 一 些 用 来 匹 
配 各 种 空白 字符 的 元 字符 。 


在 进行 正则 表达 式 搜索 的 时 候 ， 我 们 经 常会 遇 到 需要 对 原始 文本 里 
的 非 打印 空白 字符 进行 匹配 的 情况 。 比 如 说 ， 我 们 可 能 需要 把 所 有 的 制 
表 符 找 出 来 ， 或 者 我 们 需要 把 换行 符 找 出 来 ， 这 类 字符 很 难 被 直接 输入 
到 一 个 正则 表达 式 里 ， 但 我 们 可 以 使 用 表 4-1 列 出 的 特殊 元 字符 来 输入 
它们 。 


表 4-1 ”空白 元 字符 


元 字符 说 ”有 明 

[\b] 回 退 〈 并 删除 ) 一 个 字符 〈Backspace 键 ) 
\f 换 页 符 

\n 换行 符 

\r 回 车 符 

\t 制 表 符 (Tab 键 ) 


\v 垂直 制 表 符 
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我 们 来 看 一 个 例子 。 例 子 中 的 原始 文本 包含 着 一 些 以 逗号 分 隔 (CSV 
格式 ) 的 数据 记录 ， 而 我 们 的 任务 是 在 对 这 些 记 录 做 进一步 处 理 之 前 ， 
先 把 夹杂 在 这 些 数据 里 的 空白 行 去 掉 。 我 们 是 这 么 做 的 : 

Di en Fomta 


"102","Jim","James" 


"103","Roberta","Robertson" 
"104","Bob","Bobson" 


正则 表达 式 
\r\n\r\n 


: 
in 101 " "Ben" "Forta’ 


"102","Jim","James" 


"103","Roberta","Robertson" 
"104","Bob","Bobson" 


\r\n 匹 配 一 个 “ 回 车 + 换行 "组合 ， 有 许多 操作 系统 (比如 Windows) 
都 把 这 个 组 合用 作文 本 行 的 结束 标签 。 使 用 正则 表达 式 \r\n\r\n 进 行 
的 搜索 将 匹配 两 个 连续 的 行 尾 标签 , 而 那 正 是 两 条 记录 之 间 的 空白 行 。 


提示  \r\n 是 Windows 所 使 用 的 文本 行 结束 标签 。Unix 和 
Linux 系 统 只 使 用 一 个 换行 符 来 结束 一 个 文本 行 ; 换 名 话说， 
在 Unix/Linux 系 统 上 匹配 空白 行 只 使 用 \n\n 即 可 ， 不 需要 加 上 


\r。 同 时 适用 于 Windows 和 Unix/Linux 系 统 的 正则 表达 式 应 该 
包含 一 个 可 选 的 \r 和 一 个 必须 被 匹配 的 \n。 你 可 以 在 下 一 章 看 
到 一 个 这 样 的 例子 。 





一 般 来 说 ， 需 要 匹配 \r、\n 和 \t〔 制 表 符 〉 等 空白 字符 的 情况 比较 
多 见 ， 需 要 匹配 其 他 空白 字符 的 情况 要 相对 少 一 些 。 
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注意 你 已 经 见 过 不 少 元 字符 了 , 但 你 注意 到 它们 之 间 的 差异 
了 吗 ? .和 [是 元 字符 , 但 前 提 是 你 没有 对 它们 进行 转 义 。 f 和 n 
也 是 元 字符 ， 但 前 提 是 你 对 它们 进行 了 转 义 。 如 果 你 没有 对 下 
和 n 进 行 转 义 ， 它 们 将 被 解释 为 普通 字符 ， 只 能 匹配 它们 本 身 。 






4.3 ”匹配 特定 的 字符 类 别 


到 目前 为 止 ， 你 已 经 见 过 如 何 匹配 特定 的 字符 、 如 何 匹配 任意 单个 
字符 〈 用 .)、 如 何 匹配 多 个 字符 中 的 某 一 个 〈 用 [和 ] ) 以 及 如 何 进行 取 
非 匹配 〈 用 ^)。 字 符 集合 《匹配 多 个 字符 中 的 某 一 个 ) 是 最 常见 的 匹配 
形式 ， 而 一 些 常用 的 字符 集合 可 以 用 特殊 元 字符 来 代替 。 这 些 元 字符 匹 
配 的 是 某 一 类 别 的 字符 (术语 称 之 为 “字符 类 ”)。 类 元 字符 并 不 是 必 不 
可 少 的 东西 (你 总 是 可 以 通过 逐一 列举 有 关 字 符 或 是 通过 定义 一 个 字符 
区 间 的 办 法 来 匹配 某 一 类 字符 )， 但 用 它们 构造 出 来 的 正则 表达 式 简 明 易 
懂 ， 在 实践 中 很 有 用 。 


注意 下 面 列 出 的 字符 类 都 是 最 基本 的 ， 几乎 所 有 的 正则 表达 


3 式 实现 都 支持 它们 。 





4.3.1 匹配 数字 (与 非 数 字 ) 

我 们 在 第 3 曹 讲 过 ，[0-9] 是 [0123456789] 的 简写 形式 ， 它 可 以 用 
来 丐 配 任何 一 个 数字 。 如 果 你 想 匹配 的 是 除数 字 以 外 的 其 他 东西 ， 那 么 
把 这 个 集合 “ 反 ” 过 来 写成 [6-9] 就 行 了 。 表 4-2 列 出 了 用 来 匹配 数字 和 
非 数 字 的 类 元 字符 。 


表 4-2 ”数字 元 字符 





元 字符 说 明 
\d 任何 一 个 数字 字符 (等 价 于 [0-9]) 
\D 任何 一 个 非 数字 字符 〈 等 价 于 [^0-9] ) 


为 了 演示 这 些 元 字符 的 用 法 ， 我 们 来 看 一 个 在 前 面 见 过 的 例子 : 
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var myArray = new Array(); 
if (myArray[g] == 0) { 
} 


正则 表达 式 


myArray\[\d\] 


var myArray = new Array(); 
if (myArray[0] == 0) { 


} 


\[ 匹 配 [，\d 匹 配 任意 单个 数字 字符 ,\] 匹 配 ], 所 以 myArray\[\d\] 
匹配 出 myArray[0] 。myArray\[\d\] 是 myArray\[[0-9]\] 的 简写 形 
式 ， 而 后 者 又 是 myArray\[[0123456789]\] 的 简写 形式 。 这 个 正则 表 
达 式 还 可 以 匹配 myArray[1] 、myArray[2] ， 等 等 (但 不 匹配 
myArray[10] )。 


提示 ”正如 大 家 看 到 的 那样 ， 在 与 正则 表达 式 打交道 的 时 候 ， 
同样 的 问题 几乎 总 是 有 好 几 种 不 同 的 解决 办 法 。 这 些 办 法 并 无 
优 劣 之 分 ， 你 尽 可 以 选择 最 熟悉 的 那 种 语法 。 


警告 ”正则 表达 式 的 语法 是 区 分 字母 大 小 写 的 。\d 匹 配 数字 ， 
\D 与 \d 的 含义 刚好 相反 。 接 下 来 将 看 到 的 其 他 类 元 字符 也 是 
如 此 。 





4.3.2 ”匹配 字母 和 数字 (与 非 字母 和 数字 ) 
字母 和 数字 一 一 A 到 Z (不 分 大 小 写 )、 数 字 0 到 9、 再 加 上 下 划 线 字符 
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(_) 一 一 是 另 一 种 比较 常用 的 字符 集合 ， 这 些 字符 常见 于 各 种 名 字 里 ， 
如 (文件 名 、 子 目录 名 、 变 量 名 、 数 据 库 对 象 名 ,等 等 )。 表 4-3 列 出 了 用 
来 匹配 字母 数字 和 非 字 母 数 字 的 类 元 字符 。 


表 4-3 ”字母 数字 元 字符 


元 字符 说 ”了 明 
\w 任何 一 个 字母 数字 字符 (大 小 写 均 可 )〉 或 下 划 线 字符 (等 价 于 
[a-zA-20-9_1]) 
\W 任何 一 个 非 字 母 数 字 或 非 下 划 线 字符 (等 价 于 [~^a-zA-20-9_]) 


下 面 这 个 例子 里 的 原始 文本 是 一 些 来 自 某 个 数据 库 的 记录 ， 那 些 记 
录 的 内 容 是 美国 和 加 拿 大 某 些 城市 的 邮政 编码 ”: 


\w\d\w\d\w\d 


H1H2H2 


在 这 个 模式 里 ， 交 替 出 现 的 \w 和 和 \d 元 字符 将 使 得 匹配 结果 里 只 包含 
加 拿 大 城市 的 邮政 编码 。 


QD 美国 和 加 拿 大 城市 的 邮政 编码 规则 参见 附录 B 的 B.2 和 B.3 节 。 一 一 编者 注 
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注意 在 上 面 这 个 例子 里 , 我 们 使 用 的 正则 表达 式 解 决 了 我 们 
的 问题 。 但 它 正确 吗 ? 请 大 家 思考 一 下 ， 为 什么 美国 的 邮政 编 
码 没 有 被 匹配 出 来 ? 是 因为 它们 只 由 数字 构成 、 还 是 因为 什么 
其 他 原因 ? 


我 们 将 不 给 出 这 个 问题 的 答案 ,理由 很 简单 一 一 例子 里 的 


模式 解决 了 问题 。 这 里 的 关键 是 正则 表达 式 很 少 有 对 错 之 分 
( 当然 ， 前 提 是 它们 能 解决 问题 )， 我们 更 关心 的 是 它们 的 复杂 
程度 一 一 而 这 要 由 模式 匹配 操作 的 精确 程度 来 决定 ; 如 果 你 需 
要 更 精确 的 匹配 ， 就 需要 构造 更 复杂 的 正则 表达 式 。 


4.3.3 ”匹配 空白 字符 (与 非 空白 字符 ) 


另 一 种 常见 的 字符 类 别 是 空白 字符 。 在 本 章 前 面 的 内 容 里 ， 我 们 向 
大 家 介绍 了 一 些 用 来 匹配 某 个 特定 的 空白 字符 的 元 字符 。 表 4-4 列 出 了 用 
来 匹配 所 有 空白 字符 的 类 元 字符 。 


表 4-4 ”空白 字符 元 字符 





元 字符 说 明 
\S 任何 一 个 空白 字符 (等 价 于 [\f\n\r\t\v]) 
\S 任何 一 个 非 空白 字符 (等 价 于 [^\f\n\r\t\v]) 


注意 用 来 匹配 退 格 字 符 的 [\b] 元 字符 是 一 个 特例 : 它 不 在 类 
Ss 元 字符 \s 的 覆盖 范围 内 ， 当 然 也 就 没有 被 排除 在 类 元 字符 \S 


的 覆盖 范围 外 。 





4.3.4 匹配 十 六 进 制 或 八进制 数值 

你 或 许 不 会 遇 到 需要 通过 某 个 特定 字符 的 十 六 进 制 值 或 八进制 值 来 
匹配 它 的 情况 ， 但 我 们 希望 大 家 明白 这 是 可 以 做 到 的 。 

1. 使 用 十 六 进 制 什 


在 正则 表达 式 里 ， 十 六 进 制 (着 16 进 1) 数值 要 用 前 缀 \x 来 给 出 。 比 
如 说 ，\x8A 对 应 于 ASCII 字 符 10 (换行 符 )， 其 效果 等 价 于 \n。 
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0 


2. 使 用 八进制 值 


在 正则 表达 式 里 ， 八 进 制 (着 8 进 1〉 数 值 要 用 前 级 \0 来 给 出 ， 数 值 
本 身 可 以 是 两 位 或 三 位 数字 。 比 如 说 , \811 对 应 于 ASCII 字 符 9( 制 表 符 )， 
其 效果 等 价 于 \t。 


注意 有 不 少 正则 表达 式 实现 还 允许 使 用 \c 前 级 来 指定 各 种 


怎 龙 ”控制 字符 .比如 说 ，\cZ 将 匹配 Ctrl-Z。 不过， 在 实际 工作 中 ， 
必须 使 用 这 种 语法 的 情况 相当 少见 ， 





4.4 ”使 用 POSIX 字 符 类 


对 元 字符 以 及 各 种 字符 集合 进行 的 讨论 ， 必 须要 提 到 POSIX 字 符 
类 。POSIX 字 符 类 是 许多 〈 但 不 是 所 有 ) 正则 表达 式 实现 都 支持 的 一 种 
简写 形式 。 


注意 JavaScript 不 支持 在 正则 表达 式 里 使 用 POSIX 字 符 类 . 





表 4-5 ” POSIX 字符 类 
字符 类 说 了 明 
[ ] 任何 一 个 字母 或 数字 等 价 于 [a-zA-2Z0-9]) 
[ ] 任何 一 个 字母 (等 价 于 [a-zA-2Z]) 
[ ] 空格 或 制 表 符 〔( 等 价 于 [\t]) 
[ ] ASCII 控 制 字 符 (ASCII 0 到 31， 再 加 上 ASCII 127) 
[ ] 任何 一 个 数字 (等 价 于 [0-9]) 
[:graph:] 和 [ :print:] 一 样 ， 但 不 包括 空格 
[ :lower:] 任何 一 个 小 写字 母 〈 等 价 于 [a-z]) 
[ ] 
[ ] 
[ ] 
[ ] 
[ 





任何 一 个 可 打印 字符 

既 不 属于 [ :alnum: ] 也 不 属于 [ :cntr1: ] 的 任何 一 个 字符 
任何 一 个 空白 字符 ， 包 括 空 格 〈 等 价 于 [^\f\n\r\t\v]”) 
任何 一 个 大 写字 母 (等 价 于 [A-Z]) 

:xdigit:] 任何 一 个 十 六 进 制 数字 等 价 于 [a-fA-F0-9]) 


@ 注意 ， 字 母 t 后 有 一 个 空格 。 一 一 译 者 注 
@ 注意 ， 字 母 v 后 有 一 个 空格 。 一 一 详 者 注 
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POSIX 语 法 与 我 们 此 前 见 过 的 元 字符 不 太一 样 。 为 了 演示 POSIX 字 符 
类 的 用 法 ， 我 们 来 看 一 个 前 一 章 里 的 例子 一 一 利用 正则 表达 式 从 一 段 
HTML 代 码 里 把 RGB 值 查找 出 来 : 


<BODY BGCOLOR="#336633" TEXT="#FFFFFF" 
MARGINWIDTH="0@" MARGINHEIGHT="0" 
TOPMARGIN="0" LEFTMARGIN="0"> 


#[[:xdigit:]1][[:xdigit:]][[:xdigit:]][[:xdigit:]][[:xdigit:]][[ 
w :Xdigit:]] 


结果 
<BODY BGCOLOR="#336633" TEXT="#FFFFFF" 


MARGINWIDTH="0" MARGINHEIGHT="0" 
TOPMARGIN="@" LEFTMARGIN="0"> 


在 前 一 章 里 使 用 的 模式 是 重复 写 出 的 6 个 [6-9A-Fz-f] 字 符 集合 , 把 
那 6 个 [0-9A-Fz-f] 全 部 替换 为 [[ :xdigit : ] ] 就 得 到 这 里 的 模式 。 它 们 
的 匹配 结果 完全 一 样 。 


pssg 注意 ”这 里 使 用 的 模式 以 [[ 开 头 、 以 ] ] 结 束 ( 两 对 方 括 号 )。 

这 是 使 用 POSIX 字 符 类 所 必须 的 。POSIX 字 符 类 必须 括 在 [: 
和 :] 之 间 ， 我 们 使 用 的 POSIX 字 符 类 是 [:xdigit:] (不 
是 :xdigit: )。 外 层 的 [和 1] 字符 用 来 定义 一 个 字符 集合 ， 内 层 
的 [和 ] 字 符 是 POSIX 字 符 类 本 身 的 组 成 部 分 。 


一 警告 一 般 来 说 ， 支 持 POSIX 标 准 的 正则 表达 式 实 现 都 支持 表 
RO 3 4-5 所 列 出 的 那 12 个 POSIX 字 符 类 , 但 在 一 些 细节 方面 可 能 会 与 
这 里 的 描述 有 细微 的 差异 。 
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4.5 小结 


我 们 在 第 2 章 和 第 3 章 对 字符 匹配 操作 和 字符 集合 匹配 操 进 行 了 讨 

论 。 在 此 基础 上 ， 这 一 章 对 用 来 匹配 特定 字符 《〈 制 表 符 、 换 行 符 ， 等 等 ) 

和 用 来 匹配 一 个 字符 集合 或 字符 类 〈 数 字 、 字 母 数 字 字 符 ， 等 等 ) 的 元 

字符 进行 了 讲解 .这 些 简 短 的 元 字符 和 POSIX 字 符 类 可 以 用 来 简化 正则 表 
达 式 模式 。 





第 5 章 
重复 匹配 


在 前 儿 章 里 ， 你 们 学 习 了 如 何 使 用 各 种 元 字符 、 字 符 集合 和 字符 类 
去 匹配 单个 字符 。 在 这 一 章 里 ， 你 将 学 习 如 何 匹 配 多 个 连续 重复 出 现 的 
字符 或 字符 集合 。 


5.1 有 多 少 个 匹配 


通过 前 面 的 学 习 ， 我 们 已 经 把 正则 表达 式 模式 匹配 操作 的 基础 知识 
全 都 介绍 给 了 大 家 ， 但 我 们 给 出 的 每 个 例子 都 有 一 个 非常 严格 的 限制 。 
现在 ， 请 大 家 思考 一 下 ， 如 何 构造 一 个 匹配 电子 邮件 地 址 的 正则 表达 式 。 
电子 邮件 地 址 的 基本 格式 应 该 是 如 下 所 示 的 样子 : 


text@text.text 


利用 前 一 章 讨论 的 元 字符 ， 你 可 能 会 写 出 一 个 如 下 所 示 的 正则 表 
达 式 : 


\W@\W\ . \w 


\w 可 以 匹配 所 有 的 字母 和 数字 字符 (以 及 下 划 线 字符 _， 这 个 字符 在 
电子 邮件 地 址 里 是 合法 的 ); ，@ 字 符 不 需要 被 转 义 ， 但 .字符 需要 。 


这 个 正则 表达 式 本 身 没有 任何 错误 , 可 它 几乎 没有 任何 实际 的 用 处 一 一 
它 只 能 匹配 aeb .c 形 式 的 电子 邮件 地 址 (虽然 在 语法 方面 没有 任何 问题 ， 
但 这 显然 不 是 一 个 合法 的 地 址 )。 导 致 这 一 结果 的 关键 是 \w 只 能 匹配 单个 
字符 ， 而 我 们 无 法 预知 电子 邮件 地 址 的 各 个 字段 会 有 多 少 个 字符 。 举 个 
最 简单 的 例子 ， 下 面 这 些 都 是 合法 的 电子 邮件 地 址 ， 但 它们 在 @ 前 面 的 字 
符 个 数 都 不 一 样 。 
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b@forta.com 
ben@forta.com 
bforta@forta.com 


要 想 解 决 这 类 问题 ， 我 们 需要 一 种 能 够 匹配 多 个 字符 的 办 法 ， 这 可 
以 通过 使 用 儿 种 特殊 的 元 字符 来 做 到 。 
5.1.1 匹配 一 个 或 多 个 字符 

要 想 匹 配 同一 个 字符 〈 或 字符 集合 ) 的 多 次 重复 ， 只 要 简单 地 给 这 
个 字符 (或 字符 集合 ) 加 上 一 个 + 字符 作为 后 级 就 行 了 。+ 匹 配 一 个 或 多 
个 字符 (至 少 一 个 ; 不 匹配 零 个 字符 的 情况 )。 比 如 ，a 匹 配 a 本 身 ，at+t 
将 匹配 一 个 或 多 个 连续 出 现 的 a。 类 似 地 ，[0-9] 匹 配 任 意 单个 数字 ， 
[0-9]+ 将 匹配 一 个 或 多 个 连续 的 数字 。 


提示 “在 给 一 个 字符 集合 加 上 + 后 组 的 时 候 ， 必须 把 + 放 在 这 个 
字符 集合 的 外 面 。 比 如 说 ，[@-9]+ 是 正确 的 ，[@-9+] 则 不 是 。 


[0-9+] 其 实 也 是 一 个 合法 的 正则 表达 式 ， 但 它 匹 配 的 不 是 一 


个 或 多 个 数字 ; 它 定 义 了 一 个 由 数字 0 到 9 和 + 构成 的 字符 集合 ， 
因而 只 能 匹配 一 个 单个 的 数字 字符 或 加 号 。 虽 然 合 法 ， 可 它 并 
不 是 我 们 需要 的 东西 。 





重新 回 到 电子 邮件 地 址 的 例子 , 我 们 这 次 将 使 用 + 来 匹配 一 个 或 多 个 
字符 : 

Send personal email to ben@forta.com. For questions 

about a book use support@forta.com. Feel free to send 


unsolicited email to spam@forta.com (wouldn't it be 
nice if it were that simple, huh?). 


正则 表达 式 
\w+@\wW+\ . \w+ 


Send personal email to ben@forta.com. For questions 
about a book use support@forta.com. Feel free to send 
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unsolicited email to spam@forta.com (wouldn't it be 
nico if it were that simple, huh?). 


这 个 模式 把 原始 文本 里 的 3 个 电子 邮件 地 址 全 都 正确 地 匹配 出 来 了 。 
这 个 正则 表达 式 先 用 第 一 个 \w+ 匹 配 一 个 或 多 个 字母 数字 字符 , 再 用 第 二 
个 \w+ 匹 配 @ 后 面 的 一 个 或 多 个 字符 , 然后 匹配 一 个 .字符 (使 用 转 义 序列 
\ .)， 最 后 用 第 三 个 \w+ 匹 配 电子 邮件 地 址 的 剩余 部 分 。 


提示 “+ 是 一 个 元 字符 。 如 果 需 要 匹配 + 本 身 ， 就 必须 使 用 它 的 


转 义 序列 \+。 





+ 还 可 以 用 来 匹配 一 个 或 多 个 字符 集合 。 为 了 演示 这 种 用 法 ， 我 们 在 
下 面 这 个 例子 里 使 用 了 和 刚才 一 样 的 正则 表达 式 ， 但 原始 文本 和 上 一 个 
例子 稍 有 不 同 : 


Send personal email to ben@forta.com or 
ben.forta@forta.com. For questions about a 
book use support@forta.com. If your message 
is urgent try ben@urgent.forta.com. Feel 
free to send unsolicited email to 
spam@forta.com (wouldn't it be nice if 

it were that simple, huh?). 


正则 表达 式 
\W+@\wW+\ . \w+ 


Send personal email to ben@forta.com or 

ben.forta@forta.com. For questions about a 

book use support@forta.com. If your message 

is urgent try ben@urgent.forta.com. Feel 

free to send unsolicited email to 

spam@forta.com (wouldn't it be nice if 

it were that simple, huh?). 


这 个 正则 表达 式 匹配 到 了 5 个 电子 邮件 地 址 ， 但 其 中 有 两 个 不 够 完 
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整 。 为 什么 会 这 样 ? 因为 我 们 在 构造 这 个 正则 表达 式 的 时 候 只 想到 在 @ 字 
符 的 后 面 会 有 :个 .字符 分 开 两 个 字符 串 的 情况 ， 没 有 想到 在 @ 字 符 的 前 
面 还 会 有 .字符 。 因 此 ， 虽 然 ben .forta@forta.com 是 一 个 完全 合法 的 
电子 邮件 地 址 ， 但 这 个 正则 表达 式 只 能 匹配 forta (而 不 是 ben .forta) 
一 一 别 忘 了 ，\w 只 能 匹配 字母 和 数字 字符 ， 不 能 匹配 出 现在 字符 串 中 间 
的 ,字符 。 


要 想 干 净 彻 底 地 解决 这 个 问题 ， 我 们 需要 匹配 \w 或 .。 用 正则 表达 式 
的 术语 来 说 ， 我 们 需要 匹配 字符 集合 [\wW\.]。 下 面 是 上 面 那个 例子 的 改 
进 版 本 : 


Send personal email to ben@forta.com or 
ben.forta@forta.com. For questions about a 
book use support@forta.com. If your message 
is urgent try ben@urgent.forta.com. Feel 
free to send unsolicited email to 
spam@forta.com (wouldn't it be nice if 

it were that simple, huh?). 


[\w.]+@[\w. ]+\.\w+ 
结果 


Send personal email to beneforta.com or 
ben.forta@forta.com. For questions about a 
book use support@forta.com. If your message 
is urgent try ben@urgent.forta.com. Feel 
free to send unsolicited email to 
spam@forta.com (wouldn't it be nice if 

it were that simple, huh?). 


问题 似乎 得 到 了 圆满 解决 。[\w. ]+ 将 匹配 字符 集合 [ \w.] (字母 数 
字 字 符 、 下 划 线 和 .) 的 一 次 或 多 次 重复 出 现 ，ben. forta 完 全 符合 这 一 
条 件 。 考 虑 到 有 些 电 子 邮 件 地 址 会 有 多 层 域名 (或 主机 名 )， 我 们 在 @ 字 
[43] 符 的 后 面 也 使 用 了 一 个 [\w. ]+。 
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绵 注意 这 个 正则 表达 式 的 最 后 一 部 分 是 \W+ 而 不 是 [ \W,. ]+， 你 
和 了 知道 这 是 为 什么 吗 ? 把 [\W. ] 用 作 这 个 模式 的 最 后 一 部 分 会 
在 第 2、 第 3 和 第 4 个 匹配 上 出 问题 一 一 你 不 妨 试 试 看 ， 


改 注意 细心 的 读者 可 能 已 经 注意 到 了 : 我 们 没有 对 字符 集合 
Sj 【\w.] 里 的 .字符 进行 转 义 。 尽管 如 此 ， 它 还 是 把 原始 文本 里 
的 .字符 匹配 出 来 了 。 一 般 来 说 ， 当 在 字符 集合 里 使 用 的 时 候 ， 
像 . 和 + 这 样 的 元 字符 将 被 解释 为 普通 字符 , 不 需要 被 转 义 一 一 
但 转 义 了 也 没有 坏处 。[ \w. ] 的 使 用 效果 与 [\W\ .] 是 一 样 的 。 





5.1.2 ”匹配 零 个 或 多 个 字符 

+ 匹配 一 个 或 多 个 字符 ， 但 不 匹配 零 个 字符 一 一 + 最 少 也 要 匹配 一 个 
字符 。 那 么 ， 如 果 你 想 匹 配 一 个 可 有 可 无 的 字符 一 一 也 就 是 该 字符 可 以 
出 现 夫 次 或 多 次 的 情况 ， 你 该 怎么 办 呢 ? 

这 种 匹配 需要 用 * 元 字符 来 完成 。 * 的 用 法 与 + 完全 一 样 一 一 只 要 把 它 
放 在 一 个 字符 或 一 个 字符 集合 ) 的 后 面 ， 就 可 以 匹配 该 字符 或 字符 
集合 ) 连续 出 现 零 次 或 多 次 的 情况 。 比 如 说 ， 模 式 B.* Forta 将 匹配 
B Forta、B. Forta、Ben Forta 和 其 他 有 类 似 规律 的 组 合 。 

为 了 演示 + 和 * 的 区 别 ， 我 们 来 看 两 个 匹配 电子 邮件 地 址 的 例子 。 先 
看 第 一 个 : 

Hello .ben@forta.com is my email address. 

[\w.]+@[ \w. ]+\.\wt+ 

Hello .beneforta.com is my email address. 

[\Ww.]+ 将 匹配 字符 集合 [\w. ] (字母 数字 字符 、 下 划 线 和 . ) 的 一 次 
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或 多 次 重复 出 现 ， 而 .ben。 完 全 符合 这 一 条 件 。 这 显然 是 一 个 打字 错误 
(原始 文本 里 多 了 一 个 . )， 但 这 并 不 是 我 们 这 里 最 关心 的 问题 。 问 题 的 关 
键 在 于 : 虽然 . 是 电子 邮件 地 址 里 的 合法 字符 ， 但 把 它 用 作 电 子 邮 件 地 
址 的 第 一 个 字符 就 不 合法 了 。 

一 个 电子 邮件 地 址 可 以 有 任意 多 个 字符 ， 但 它 的 第 一 个 字符 必须 是 
一 个 字母 或 数字 字符 。 根 据 这 一 要 求 ， 我 们 真正 需要 的 是 一 个 如 下 例 所 
示 的 模式 .: 


Hello .ben@forta.com is my email address. 
\w+[\w. ]*@[\w. ]+\.\wt+ 

结果 

Hello .ben@forta.com is my email address. 


分 析 


这 个 模式 看 起 来 相当 复杂 ， 但 并 不 难 理解 。 开 头 的 \w+ 负 责 匹 配 电子 
邮件 地 址 里 的 第 一 个 字符 〈 一 个 字母 数字 字符 ， 不 包括 .字符 )。 接 下 来 
的 [\w.]* 负 责 匹 配 电子 邮件 地 址 里 第 一 个 字符 之 后 、@ 字 符 之 前 的 所 有 
字符 一 一 这 个 部 分 可 以 包含 零 个 或 多 个 字母 数字 字符 和 .字符 。 人 至 于 这 个 
模式 的 其 他 部 分 ,我们 已 经 在 第 4 章 里 解释 过 了 。 在 这 个 例子 里 ， 解 决 问 
题 的 关键 是 能 不 能 想到 用 [\w. ] * 来 匹配 字符 集合 [\w. ] (字母 数字 字符 、 
下 划 线 和 . ) 的 零 次 或 多 次 重复 出 现 。 


注意 可 以 把 * 理 解 为 一 个 用 来 表明 这 样 一 种 含义 的 元 字符 : 

3 “在 我 前 面 的 字符 (或 字符 集合 ) 是 可 选 的 "。* 与 + 的 区 别 是 : 
+ 匹配 一 个 或 多 个 字符 (或 字符 集合 )， 最 少 要 匹配 一 次 ; * 匹 
配 零 个 或 任意 多 个 字符 (或 字符 集合 )， 可 以 没有 匹配 . 
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5.1.3 ”匹配 零 个 或 一 个 字符 


另 一 个 非常 有 用 的 元 字符 是 ?。? 只 能 匹配 一 个 字符 (或 字符 集合 ) 
的 零 次 或 一 次 出 现 , 最 多 不 超过 一 次 一 一 请 仔细 体会 ?与 + 和 * 的 相似 和 区 
别 之 处 。 如 果 需 要 在 一 段 文本 里 匹配 某 个 特定 的 字符 《或 字符 集合 ) 而 
该 字符 可 能 出 现 、 也 可 能 不 出 现 ，? 无 疑 是 最 佳 的 选择 。 


请 看 下 面 这 个 例子 : 


The URL is http://www.forta.com/, to connect 
securely use https://www.forta.com/ instead. 


http://{\w./]+ 


The URL is http://www.forta.com/, to connect 
securely use https://www.forta.com/ instead. 


| 分析 

这 是 一 个 用 来 匹配 URL 地 址 的 模式 : http:// 是 普通 文本 ， 只 能 匹 
配 它 本 身 ; 随后 的 [\w./]+ 匹 配 字符 集合 [\w./] (字母 数字 字符 、. 和 /) 
的 一 次 或 多 次 重复 出 现 。 这 个 模式 只 匹配 到 了 第 一 个 URL 地 址 (以 
http: 1/ 开头 的 那个 )， 没 能 匹配 到 第 二 个 〈 以 https: /7 开头 的 那个 )。 
简单 地 在 http 的 后 面 加 上 一 个 sx 〈Ss 的 零 次 或 多 次 重复 ) 并 不 能 真正 解 
决 这 个 问题 ， 因 为 那 会 使 得 httpsssss:// (如 此 开头 的 URL 地 址 显然 是 
不 合法 的 ) 也 被 认为 是 一 个 合法 的 匹配 。 
怎么 办 ? 看 看 下 面 这 个 例子 就 知道 了 一 一 在 http 的 后 面 加 上 一 


个 S?: 


The URL is http://www.forta.com/, to connect 
securely USe https://www.forta.com/ instead. 
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正则 表达 式 


https?://[\w./]1+ 


The URL is http://www.forta.com/, to connect 
securely USe https://www.forta.com/ instead. 


分 析 


这 个 模式 的 开头 部 分 是 https?。? 在 这 里 的 含义 是 : 我 前 面 的 字符 
(Ss) 要 么 不 出 现 ， 要 么 最 多 出 现 一 次 。 换 句 话 说 ，https?:// 既 可 以 匹 
配 http://， 也 可 以 匹配 https://， 但 也 就 仅 此 而 已 。 


在 4.3.3 节 里 有 一 个 用 模式 \r\n\r\n 去 匹配 空白 行 的 例子 。 我 在 分 析 
完 那个 例子 后 说 过 这 样 的 话 : 在 Unix 或 Linux 系 统 上 匹配 空白 行 只 使 用 
\n\n 即 可 , 不 需要 加 上 \r; 同时 适用 于 Windows 和 Unix/Linux 系 统 的 正则 
表达 式 应 该 包含 一 个 可 选 的 \r 和 一 个 必须 被 匹配 的 \n。 现 在 ， 你 应 该 想 
到 可 以 用 ?来 解决 这 个 问题 了 吧 ? 下 面 还 是 那个 例子 ， 但 我 们 这 次 将 使 用 
一 个 略 有 个 同 的 正则 表达 式 : 


“101 和 ， "Ben" ' "Forta" 
"102","Jim","James" 


"103","Roberta'","Robertson" 
"104","Bob","Bobson" 


[\r]?\n[\r]?\n 


"101","Ben","Forta" 
让 102" 5 "Jim" "James" 


"1063","Roberta","Robertson" 
"104 LL pF " Bob" "Bobson" 


[\r]?\n 匹 配 一 个 可 选 的 \r 和 一 个 必 不 可 少 的 \n。 
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提示 细心 的 读者 可 能 已 经 注意 到 了 ， 上 面 这 个 例子 里 的 正则 
表达 式 使 用 的 是 [\r]? 而 不 是 \r?。[\r] 定 义 了 一 个 字符 集 
合 ， 该 集合 只 有 元 字符 \r 这 一 个 成 员 ， 因 而 [\r]? 在 功能 上 与 
\r? 完 全 等 价 。[ ] 的 常规 用 法 是 把 多 个 字符 定义 为 一 个 集合 ， 
但 有 不 少 程序 员 喜 欢 把 一 个 字符 也 定义 为 一 个 集合 。 这么 做 的 
好 处 是 可 以 增加 可 读 性 和 避免 产生 误解 ， 让 人 们 一 眼 就 可 以 看 


出 哪个 字符 与 哪个 元 字符 相关 联 。 这 里 必须 提醒 大 家 注意 这 样 
一 个 细节 : 如 果 你 打算 同时 使 用 [ ] 和 ?， 千 万 记得 应 该 把 ? 放 
在 字符 集合 的 外 面 。 具 体 到 刚才 那个 匹配 URL 地 址 的 例子 ， 写 
成 http[s]?:// 是 正确 的 ， 若 是 写成 http[s?]:// 可 就 弄 巧 
成 拙 了 。 





9 提示 。? 是 一 个 元 字符 . 如 果 需 要 匹配 ?本 身 ,， 就 必须 使 用 它 的 
转 义 序列 \?。 


5.2 ”匹配 的 重复 次 数 


正则 表达 式 里 的 +、* 和 ?解决 了 许多 问题 , 但 有 些 问 题 光 靠 它们 还 不 
够 。 请 思考 以 下 问题 : 
口 + 和 *[ 匹 配 的 字符 个 数 没有 上 限 。 我 们 无 法 为 它们 将 匹配 的 字符 个 
数 设 定 一 个 最 大 值 。 
口 +、* 和 ?至 少 匹 配 零 个 或 一 个 字符 。 我 们 无 法 为 它们 将 匹配 的 字 
符 个 数 男 行 设 定 一 个 最 小 值 。 
口 如 果 只 使 用 + 和 *， 我 们 无 法 把 它们 将 匹配 的 字符 个 数 设 定 为 一 个 
精确 的 数字 。 
为 了 解决 这 些 问 题 并 让 程序 员 对 重复 性 匹配 有 更 多 的 控制 ， 正 则 表 
达 式 语言 提供 了 一 个 用 来 设 定 重复 次 数 (interval ) 的 语法 。 重 复 次 数 要 
用 {和 } 字 符 来 给 出 一 一 把 数值 写 在 它们 之 间 。 





44 第 5 章 重复 匹配 


研习 注意 {和 } 是 元 字符 。 如 果 需 要 匹配 {和 } 本 身 ， 就 应 该 用 \ 对 
它们 进行 转 义 。 不 过 ， 即 使 你 没有 对 { 和 } 进 行 转 义 ， 大 部 分 正 
则 表达 式 实现 也 能 正确 地 处 理 它们 (根据 具体 情况 把 它们 解释 


为 普通 字符 或 元 字符 )、 话 虽 如 此 ， 为 了 避免 不 必要 的 麻烦 ， 
你 最 好 不 要 依赖 这 种 行为 ; 在 需要 把 {和 } 当做 普通 字符 来 匹配 
的 场合 ， 还 是 使 用 它们 的 转 义 序列 \{ 和 \} 比 较 稳 妥 、 


5.2.1 为 重复 匹配 次 数 设 定 一 个 精确 的 值 


如 果 你 想 为 重复 匹配 次 数 设 定 一 个 精确 的 值 ， 把 那个 数字 写 在 \{ 和 
\} 之 间 即 可 。 比 如 说 ，{3} 意 味 着 模式 里 的 前 一 个 字符 (或 字符 集合 ) 必 
须 在 原始 文本 里 连续 重复 出 现 3 次 才 算 是 一 个 匹配 ， 如 果 只 重复 了 两 次 ， 
则 不 算是 一 个 匹配 。 

为 了 演示 这 种 用 法 ， 我 们 再 来 看 一 下 匹配 RGB 值 的 例子 〈 请 对 照 第 3 
昔 和 第 4 章 里 的 类 似 例子 )。 你 应 该 记得 ，RGB 值 是 一 个 十 六 进 制 数值 ， 
这 个 值 分 成 3 个 部 分 ， 每 个 部 分 包括 两 位 十 六 数字 。 下 面 是 我 们 在 第 3 章 
里 用 来 匹配 RGB 值 的 模式 : 

#[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f] 

ww[0-9A-Fa-f] 

F 面 是 我 们 在 第 4 章 里 用 来 匹配 RGB 值 的 模式 , 它 使 用 了 POSIX 字 符 类 : 

#[[:xdigit:]][[:xdigit:]][[:xdigit:]][[:xdigit:]][[:xdigit:]][[ 

ww :xXdigit:]] 

这 两 个 模式 本 身 并 无 不 妥 ， 但 美中不足 的 是 你 不 得 不 重复 写 出 6 次 相 
同 的 字符 集合 (或 POSIX 字 符 类 )。 下 面 是 一 个 同样 的 例子 ， 但 我 们 这 次 

[49] 将 使 用 { } 语 法 来 明确 指定 一 个 重复 次 数 : 


<BODY BGCOLOR="#336633" TEXT="#FFFFFF" 
MARGINWIDTH=" 0” MARGINHEIGHT="@" 


TOPMARGIN= "0"” LEFTMARGIN="0"> 


#[[:xdigit:]]{6} 
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结果 


<BODY BGCOLOR="#336633" TEXT="#FFFFFF" 
MARGINWIDTH="@" MARGINHEIGHT="@" 
TOPMARGIN="0" LEFTMARGIN="0"> 


[ :xdigit] 匹配 一 个 十 六 进 制 数字 ，1{6} 要 求 这 个 POSIX 字 符 类 必须 连 
续 出 现 6 次 。 类 似 地 ， 使 用 模式 #[0-9A-Fa-f] {6} 也 可 以 解决 这 个 问题 。 


5.2.2 为 重复 匹配 次 数 设 定 一 个 区 间 


{} 语 法 还 可 以 用 来 为 重复 匹配 次 数 设 定 一 个 区 间 一 一 也 就 是 为 重复 
匹配 次 数 设 定 一 个 最 小 值 和 一 个 最 大 值 。 这 种 区 间 必 须 以 {2，4} 这 样 的 
形式 给 出 {2，4} 的 含义 是 最 少 重复 2 次 、 最 多 重复 4 次 。 在 下 面 的 例 
子 里 ， 我 们 将 使 用 一 个 这 样 的 正则 表达 式 来 检查 日 期 的 格式 : 


4/8103 
10-6-2004 
2/2/2 
01-01-01 


正则 表达 式 
\d{1,2}[-\/I\d{1,2}[-\/]\d{2,4} 
结果 


4/8/03 
10-6-2004 
2/2/2 
01-01-01 


这 里 列 出 的 日 期 是 一 些 由 用 户 通 过 某 个 表单 字段 输入 的 值 一 一 在 对 
这 些 日 期 值 做 进一步 处 理 之 前 ， 我 们 需要 先 检查 它们 的 格式 是 否 正确 。 
\d{1, 2} 将 匹配 一 个 或 两 个 数字 字符 〈 用 来 匹配 日 子 和 月 份 ); \d{2, 4} 
用 来 匹配 年 份 ; [ -\/] 《请 注意 ， 这 个 \/ 其 实 是 一 个 \ 和 一 个 1/) 用 来 匹 
配 日 期 值 里 的 分 隔 符 -或 /。 我 们 总 共 匹 配 到 了 3 个 日 期 值 ， 但 2/2/2 不 在 
此 列 ( 因 为 它 的 年 份 太 短 了 )。 
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提示 。 在 这 个 例子 里 , 我 们 使 用 了 /的 转 义 序列 \/。 这 在 
许多 正则 表达 式 实现 里 是 不 必要 的 ， 但 有 些 正则 表达 式 


分 析 器 要 求 我 们 必须 这 样 做 .为 避免 不 必要 的 麻烦 ， 在 
需要 匹配 /字符 本 身 的 时 候 ， 你 最 好 总 是 使 用 它 的 转 义 序 
列 。 





注意 ， 上 面 这 个 例子 里 的 模式 并 不 能 检查 日 期 值 是 否 有 效 ; 诸如 
54/67/9999 之 类 的 无 效 日 期 也 能 通过 这 一 测试 。 它 只 能 用 来 检查 日 期 值 
的 格式 是 否 正确 (这 一 环节 通常 安排 在 日 期 值 本 身 的 有 效 性 检查 之 前 )。 







注意 ”重复 次 数 可 以 是 0。 比 如 ，{@，3} 表 示 重 复 次 数 可 以 是 
0、1、2 或 3。 


我 们 曾经 讲 过 ，? 匹 配 它 之 前 一 个 字符 (或 字符 集合 ) 的 零 次 
或 一 次 出 现 。 因 此 ， 从 效果 上 看 ，? 等 价 于 {0，1}. 


5.2.3 匹配 “至 少 重复 多 少 次 ” 


{ } 语 法 的 最 后 一 种 用 法 是 给 出 一 个 最 小 的 重复 次 数 〈 但 不 必 给 出 一 
个 最 大 值 )。{ } 的 这 种 用 法 与 我 们 用 来 为 重复 匹配 次 数 设 定 一 个 区 间 的 { } 
语法 很 相似 ， 只 是 省 略 了 最 大 值 部 分 而 已 。 比 如 说 ，{3，} 表 示 至 少 重复 
3 次 ， 与 之 等 价 的 说 法 是 “必须 重复 3 次 或 更 多 次 ”。 


我 们 来 看 一 个 综合 了 本 章 主要 内 容 的 例子 。 在 这 个 例子 里 ， 我 们 
使 用 一 个 正则 表达 式 把 所 有 大 于 或 等 于 $100 美 元 的 金额 找 出 来 : 


1001: $496.80 
1002: $1290.69 
1003: $26.43 
1004: $613 .42 
1005: $7.61 
1006: $414.90 
1007: $25.00 
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\d+: \$\d{3,}\.\d{2} 


1001: $496.80 
1002: $1290.69 
1003: $26.43 
1004: $613 .42 
1005: $7.61 
1006: $414.90 
1007: $25.00 


这 个 例子 里 的 原始 文本 来 自 一 份 报表 ， 它 的 第 一 列 是 定单 号 ， 第 二 
列 是 定单 金额 。 我 们 构造 的 正则 表达 式 首 先 使 用 了 一 个 \d+ :来 匹配 定单 
号 〈 这 部 分 其 实 可 以 省 略 一 一 我 们 可 以 只 匹配 金额 部 分 而 不 是 匹配 包括 
定单 号 在 内 的 一 整 行 )。 模 式 \$\df3，}\.\d{2} 用 来 匹配 金额 部 分 : \$ 
匹配 $、\d{f3 ,} 匹 配 至 少 3 位 数字 〈 也 就 是 所 有 大 于 或 等 于 $100 美 元 的 金 
额 )、\ .匹配 .、\d{f2} 匹 配 小 数 点 后 面 的 两 位 数字 。 整 个 模式 从 7 条 记录 
里 正确 地 匹配 到 了 4 条 符合 要 求 的 记录 。 


提示 “在 进行 这 种 重复 次 数 匹 配 的 时 候 一 定 要 小 心 。 如 果 你 遗 
漏 了 花 括号 里 的 过 号 ,， 你 的 模式 将 变 成 (有 具体 到 这 个 例子 ) 





精确 匹配 3 位 数字 而 不 再 是 匹配 至 少 3 位 数字 。 


5.3 防止 过 度 匹 配 


?只 能 匹配 零 个 或 一 个 字符 , {n} 和 {m, n} 也 有 一 个 重复 次 数 的 上 限 ; 
换 句 话说 ， 这 几 种 语法 所 定义 的 “重复 次 数 ” 都 是 有 限 的 。 但 本 章 介绍 
的 其 他 重复 匹配 语法 在 重复 次 数 方面 都 没有 上 限 值 ， 而 这 样 做 有 时 会 导 
致 过度 匹 配 的 现象 。 


到 目前 为 止 ， 我 们 选用 的 例子 都 不 存在 过 度 匹 配 的 问题 ， 但 你 迟早 
会 遇 到 类 似 于 下 面 这 个 例子 的 情况 。 这 个 例子 里 的 原始 文本 来 自 一 个 Web 
页 面 ， 其 中 包含 着 两 个 HTML <B> 标 签 ; 而 我 们 的 任务 是 用 一 个 正则 表达 
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式 把 那 两 个 <B> 标 签 里 的 文本 匹配 出 来 (为 了 对 这 些 文本 进行 替换 或 排版 
等 )。 下 面 就 是 这 个 例子 : 


This offer is not available to customers 
living in <B>AK</B> and <B>HI</B>. 


<[Bb]>.*</[Bb]> 


This offer is not available to customers 
living in <B>AK</B> and <B>HI</B>. 


<[Bb]> 匹 配 <B> 标 签 ( 大 小 写 均 可 )，</[Bb]> 匹 配 </B> 标 签 (也 是 
大 小 写 均 可 )。 但 这 个 模式 只 找到 了 一 个 匹配 而 不 是 预期 中 的 两 个 : 第 一 
个 <B> 标 签 之 后 、 最 后 一 个 </B> 标 签 之 前 的 所 有 东西 一 一 AK</B> and 
<B>HI 一 一 被 .* 一 网 打 尽 。 虽 然 没 有 漏 掉 我 们 想 要 匹配 的 文本 ， 但 问题 
是 第 2 个 <B> 标 签 不 明 不 白地 “失踪 ”了 。 

为 什么 会 这 样 ? 因为 * 和 + 都 是 所 谓 的 “ 贪 禁 型 ”元 字符 ， 它 们 在 进 
行 匹配 时 的 行为 模式 是 多 多 益 善 而 不 是 适可而止 的 。 它 们 会 尽 可 能 地 从 
一 段 文本 的 开头 一 直 匹 配 到 这 段 文本 的 末尾 ， 而 不 是 从 这 段 文本 的 开头 
匹配 A 到 碰 到 第 一 个 此 配 时 为 止 。 

在 不 需要 这 种 “ 贪 焚 行 为 ”的 时 候 该 怎么 办 ? 答案 是 使 用 这 些 元 字 
符 的 “懒惰 型 ”版 本 〈“ 懒 惰 ” 在 这 里 的 含义 是 匹配 尽 可 能 少 的 字符 一 一 
与 “ 信 丈 型 ”元 字符 的 行为 模式 刚好 相反 )。 懒 情 型 元 字符 的 写法 很 简单 ， 
只 要 给 贪 禁 型 元 字符 加 上 一 个 ?后 缀 即 可 , 表 5-1 列 出 了 几 个 常用 的 贪 禁 型 
元 字符 和 它们 的 懒惰 型 版 本 。 


表 5-1 常用 的 贪 禁 型 元 字符 和 它们 的 懒惰 型 版 本 





贪 梦 型 元 字符 懒 情 型 元 字符 
大 支 ? 
+ +? 


{n, } {n, }? 
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*? 是 * 的 懒惰 型 版 本 ;下 面 是 使 用 *? 来 解决 刚才 那个 例子 的 做 法 : 


This offer is not available to customers 
living in <B>AK</B> and <B>HI</B>. 


正则 表达 式 
<[Bb]>.*?</[Bb]> 
结果 


This offer is not available to customers 
living in <B>AK</B> and <B>HI</B>. 


问题 得 到 了 圆满 解决 。 因 为 使 用 了 懒惰 的 *?， 第 一 个 匹配 将 仅 限 于 
AK， 原 始 文本 里 的 <B>HI</B> 成 为 了 第 二 个 匹配 。 


注意 ”这 本 书 里 的 大 多 数 例 子 使 用 的 都 是 “ 贪 禁 型 ”元 字符 ， 

而 我 们 这 么 做 的 出 发 点 是 为 了 让 那些 示例 模式 尽 可 能 地 简明 

易 懂 。 在 实际 工作 中 ， 请 务必 根据 具体 情况 来 选用 “ 贪 禁 型 ” 
或 “懒惰 型 ”元 字符 。 


5.4 小结 


正则 表达 式 的 真正 威力 体现 在 重复 次 数 匹配 方面 。 本 章 介 绍 了 +《 匹 
配 字符 或 字符 集合 的 一 次 或 多 次 重复 出 现 )、* 〈 匹 配 字符 或 字符 集合 的 
零 次 或 多 次 重复 出 现 )、?〈 匹 配 字符 或 字符 集合 的 零 次 或 一 次 出 现 ) 等 
几 个 元 字符 的 用 法 。 要 想 获得 更 精确 的 控制 ， 你 可 以 用 { } 语 法 来 精确 地 
设 定 一 个 重复 次 数 或 是 重复 次 数 的 最 小 值 和 最 大 值 。 元 字符 分 “ 仿 禁 型 “ 
和 “懒惰 型 ”两 种 ， 在 需要 防止 过 度 匹配 的 场合 下 ， 请 使 用 “懒惰 型 ” 
元 字符 来 构造 你 的 正则 表达 式 。 
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到 目前 为 止 ， 你 已 经 学 习 了 许多 元 字符 的 用 法 。 只 要 灵活 运用 这 些 
知识 ， 你 就 可 以 对 任意 字符 或 字符 集合 ) 及 其 各 种 组 合 和 重复 进行 匹 
合 ) 可 以 出 现在 原始 文本 里 的 任意 位 置 。 可 
是 ， 在 某 些 场 合 ， 你 需要 日 只 需要 对 某 段 文本 的 特定 位 置 进行 匹配 ， 这 
就 引出 了 位 置 匹配 的 概念 ， 而 这 个 概念 正 是 本 章 的 学 习 重 点 。 


6.1 边界 


位 置 匹配 用 来 解决 在 什么 地 方 进行 字符 串 匹 配 操作 的 问题 。 为 了 让 大 
家 对 位 置 匹 配 及 其 相关 概念 有 一 个 直观 的 认识 ， 我 们 先 来 看 一 个 例子 : 


The cat scattered his food all over the room. 

cat 

The cat scattered his food all over the room. 

模式 cat 把 原始 文本 里 的 所 有 cat 都 找 了 出 来 , 单词 scattered 里 的 
那个 cat 也 不 例外 。 但 这 一 结果 并 不 是 我 们 所 预期 的 ， 我 们 只 想 把 单词 
cat 本 身 找 出 来 。 我 们 本 想 用 这 种 办 法 把 所 有 的 cat 蔡 换 为 dog， 但 得 到 
的 结果 却 是 一 个 毫 无 实际 意义 的 句子 : 


The dog sdogtered his food all over the room. 
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能 够 正确 解决 这 个 问题 的 办 法 只 有 一 个 : 使 用 边界 限定 符 ， 也 就 是 
在 正则 表达 式 里 用 一 些 特殊 的 元 字符 来 表明 我 们 想 让 匹配 操作 在 什么 位 
置 (或 边界 ) 发 生 。 


6.2 ”单词 边界 

第 一 种 边界 (也 是 最 常用 的 边界 ) 是 由 限定 符 \b 指 定 的 单词 边界 。 
顾名思义 ， \b 用 来 匹配 一 个 单词 的 开始 或 结尾 

为 了 演示 \b 的 用 法 ， en ep ee 但 我 们 
这 次 将 用 上 单词 边界 : 

The cat scattered his food all over the room. 

\bcat\b 

结果 


The cat scattered his food all over the room. 


在 原始 文本 里 ， 单 词 cat 的 前 后 都 有 一 个 空格 ， 而 这 将 与 模式 
\bcat\b 相 匹配 (空格 是 用 来 分 隔 单 词 的 字符 之 一 )。 单词 scattered 中 
的 字符 序列 cat 不 能 与 这 个 模式 相 匹配 ， 因 为 它 的 前 一 个 字符 是 s、 后 一 
个 字符 是 t (这 两 个 字符 都 不 能 与 \b 相 匹配 )。 


. 欠 注意 \b 到 底 匹 配 什么 东西 呢 ? 正则 表达 式 引 擎 不 懂 英 语 ( 事 
全 2 区” 实 上 ， 它 不 懂 任 何人 类 语言 ) 也 不 知道 什么 是 单词 边界 ， 简 
单 地 说 ，\b 匹 配 的 是 一 个 这 样 的 位 置 ,这 个 位 置 位 于 一 个 能 够 


用 来 构成 单词 的 字符 ( 字母、 数字 和 下 划 线 ， 也 就 是 与 \W 相 匹 
配 的 字符 ) 和 一 个 不 能 用 来 构成 单词 的 字符 (也 就 是 与 \W 相 匹 
配 的 字符 ) 之 间 。 





Q@ b 是 英文 boundary (边界 ) 的 首 字母 。 一 一 编者 注 
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这 里 要 特别 注意 的 是 ， 如 果 你 想 匹 配 一 个 完整 的 单词 ， 就 必须 在 你 
想 要 匹配 的 文本 的 前 后 都 加 上 \b 限 定 符 。 请 看 下 面 这 个 例子 : 


The captain wore his cap and cape proudly as 
he sat listening to the recap of how his 
crew saved the men from a capsized vessel. 


\bcap 
结果 


The captain wore his cap and cape proudly as 
he sat listening to the recap of how his 
crew saved the men from a capsized vessel. 


模式 \bcap 将 匹配 以 字符 序列 cap 开 头 的 任何 一 个 单词 。 这 里 总 共 找 
到 了 4 个 匹配 ， 其 中 有 3 个 是 以 字符 序列 cap 开 头 的 其 他 单词 而 不 是 单词 
cap 本 身 。 


下 面 这 个 例子 里 的 原始 文本 还 是 刚才 那 段 文字 ， 但 在 这 次 的 正则 表 
达 式 里 只 有 一 个 后 绎 的 \b 限 定 符 : 


The captain wore his cap and cape proudly as 
he sat listening to the recap of how his 
crew saved the men from a capsized vessel. 


正则 表达 式 
cap\b 
EE 


The captain wore his cap and cape proudly as 
he sat listening to the recap of how his 
crew saved the men from a capsized vessel. 


分 析 
: 模式 cap\b 将 匹配 以 字符 序列 cap 结 束 的 任何 一 个 单词 。 这 里 总 共 找到 了 
[58] “2 个 匹配 ， 其 中 一 个 是 以 字符 序列 cap 结 束 的 其 他 单词 而 不 是 单词 cap 本 身 。 
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如 果 你 只 想 匹配 单词 cap 本 身 ， 就 必须 使 用 \bcap \b 做 为 模式 ， 它 才 
是 你 需要 的 正确 答案 。 


注意 \b 匹 配 且 只 匹配 一 个 位 置 ， 不 匹配 任何 字符 .用 


\bcat\b 匹 配 到 的 字符 串 的 长 度 是 3 个 字符 (C、a、 七 )， 不 是 5 
个 字符 。 : 





如 果 你 想 表明 不 匹配 一 个 单词 边界 "， 请 使 用 \B。 在 下 面 的 例子 里 ， 
我 们 将 使 用 \B 来 查找 其 前 后 都 有 多 余 空格 的 连 字符 : 


EE3 


Please enter the nine-digit id as it 
appears on your color - coded pass-key. 


正则 表达 式 
\B-\B 


结果 | 


Please enter the nine-digit id as it 
appears on your color - coded pass-key. 


分 析 

\B-\B 将 匹配 一 个 前 后 都 不 是 单词 边界 的 连 字 符 。nine-digit 和 
pass-key 中 的 连 字 符 不 能 与 之 匹配 ,但 color-coded 中 的 连 字 符 可 以 与 
疤 亚 配 < 

正如 我 们 在 第 4 章 里 见 到 的 那样 ， 同 一 个 元 字符 的 大 写 形式 与 它 的 小 
写 形式 在 功能 上 往往 刚好 相反 。 


2 注意 除了 用 来 匹配 单词 边界 ( 开头 或 结束 均 可 ) 的 \b， 有 些 
Sg 主 则 表达 式 实现 还 支持 另外 两 个 元 字符 : \< 只 匹配 单词 的 开 
头 ; \> 只 匹配 单词 的 结束 。 不 过 ， 虽然 这 两 种 元 字符 可 以 提供 


粒度 更 细 的 控制 ， 但 支持 它们 的 正则 表达 式 引 擎 却 并 不 多 见 
( 据 笔者 所 知 ，egrep 程 序 是 支持 \< 和 \ > 的， 但 许多 其 他 文本 匹 
配 工具 则 不 支持 它们 )。 





Q@ 即 字母 数字 下 划 线 之 间 ， 或 者 非 字母 数字 下 划 线 之 间 。 一 一 编者 注 
@ 因为 空格 和 连 字 符 都 不 是 字母 数字 或 下 划 线 。 一 一 编者 注 
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6.3 ”字符 串 边界 


单词 边界 可 以 用 来 进行 与 单词 有 关 的 位 置 匹配 (单词 的 开头 、 
单词 的 结束 、 整 个 单词 ， 等 等 )。 字 符 串 边界 有 着 类 似 的 用 途 ， 只 不 
过 是 用 来 进行 与 字符 串 有 关 的 位 置 匹配 而 已 《字符 串 的 开头 、 字 符 
串 的 结束 、 整 个 字符 申 , 等 等 )。 用 来 定义 字符 串 边界 的 元 字符 有 两 
个 :一 个 是 用 来 定义 字符 串 开头 的 ^， 另 一 个 是 用 来 定义 字符 串 结尾 的 $。 


._ 份 注意 还 记得 吗 ? 我 们 在 第 3 章 里 已 经 见识 过 元 字符 ^ 了 , 但 那 
人 ”时 的 它 是 一 个 用 来 对 字符 集合 进行 “ 求 非 ” 操 作 的 元 字符 那 
它 还 怎么 用 来 表明 一 个 字符 串 的 开头 呢 ? 


“是 几 个 有 着 多 种 用 途 的 元 字符 之 一 。 只 有 当 它 出 现在 一 个 字 
符 集合 里 (被 放 在 [和 ] 之 间 ) 并 紧 跟 在 左 方 插 号 [的 后 面 时 ， 
它 才 能 发 挥 “ 求 非 作用。 如果 是 在 一 个 字符 集合 的 外 面 并 位 
于 一 个 模式 的 开头 ,，“ 将 匹配 字符 串 的 开头 。 





为 了 演示 字符 串 边界 的 用 法 ， 我 们 在 下 面 准 备 了 一 个 例子 。 合 法 的 
XML 文档 都 必须 以 <?xm1> 标 签 开 头 并 有 一 些 其 他 属性 《比如 一 个 版 本 
号 ， 如 <?xm1l version="1.0" ?>)。 下 面 这 个 简单 的 测试 可 以 检查 一 
段 文 本 是 否 是 一 篇 XML 文 档 : 


<?xml version="1.0" encoding="UTF-8" ?> 
<wsdl:definitions targetNamespace="http://tips.cf" 
xmlns:impl="http://tips.cf" xmlns:intf="http://tips.cf" 
xmlns:apachesoap="http://xml.apache.org/xml -soap" 


VXML, *\?> 


<?xml version="1.0" encoding="UTF-8" ?> 
<wsdl:definitions targetNamespace="http://tips.cf" 
xmlns:impl="http://tips.cf" xmlns:intf="http://tips.cf" 
xmlns:apachesoap="http://xml.apache.org/xml-soap" 
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区 


这 个 模式 似乎 能 够 解决 问题 : <\?xm1 匹 配 <?xm1，.* 匹 配 随 后 的 任 
意 文本 《〈 .的 零 次 或 多 次 重复 出 现 )，\?> 匹 配 ?>。 


这 是 一 个 非常 不 准确 的 测试 。 在 下 面 的 例子 里 ， 上 例 中 的 模式 虽然 
匹配 到 了 一 个 XML 文 档 的 开头 部 分 ， 但 位 置 却 完全 不 对 。 它 匹配 到 的 语 
句 位 于 文档 的 第 2 行 而 不 是 第 1 行 。 


茎 3 

This is bad, real bad! 

<?xml version="1.0" encoding="UTF-8" ?> 
<wsdl:definitions targetNamespace="http://tips.cf" 
xmlns:impl="http://tips.cf" xmlns:intf="http://tips.cf" 
xmlns:apachesoap="http://xml.apache.org/xml-soap" 


站 正则 表达 式 


<\?xml.*\?> 


EE 


This is bad, real bad! 

<?xml version="1.8" encoding="UTF-8" ?> 
<wsdl:definitions targetNamespace="http://tips.cf" 
xmlns:impl="http://tips.cf" xmlns:intf="http://tips.cf" 
xmlns:apachesoap="http://xml.apache.org/xml-soap'" 


[分析 | 

模式 <\?xml\?> 匹 配 到 的 是 整个 文本 的 第 2 行 。 虽 然 它 也 是 XML 文档 
的 开始 标签 ， 但 因为 出 现在 文本 的 第 2 行 ， 所 以 这 份 文档 肯定 不 是 一 份 合 
法 的 XML 文档 ， 把 它 当 做 一 份 XML 文 档 来 处 理会 导致 种 种 问题 。 

这 里 需要 的 是 一 个 能 够 确保 被 匹配 到 的 <?xm1> 标 签 出 现在 字符 串 
最 开始 处 的 测试 ， 而 这 正 是 ^ 元 字符 大 显 身 手 的 地 方 ， 如 下 所 示 ; 


<?xml version="1.08" encoding="UTF-8" ?> 
<wsdl:definitions targetNamespace="http://tips.cf" 四 
xmlns:impl="http://tips.cf" xmlns:intf="http://tips.cf" 
xmlns:apachesoap="http://xml.apache.org/xml-soap'" 


^\S*<\?xml.*\?> 
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结果 


<?xml version="1.0" encoding="UTF-8"” ?> 
<wsdl:definitions targetNamespace="http://tips.cf" 
xmlns:impl="http://tips.cf" xmlns:intf="http://tips.cf" 
xmlns:apachesoap="http://xml.apache.org/xml-soap" 


^ 匹 配 一 个 字符 串 的 开头 位 置 , 所 以 ^\s* 将 匹配 一 个 字符 串 的 开头 位 
置 和 随后 的 零 个 或 多 个 空白 字符 〈 这 解决 了 <?xm1l1> 标 签 前 允许 有 空格 、 
制 表 符 、 换 行 符 等 空白 字符 的 问题 )。 作 为 一 个 整体 ， 模 式 
^\s*<\?xml.*\?> 不 仅 能 正确 地 匹配 一 个 位 置 正确 的 <?xm1> 标 签 ， 还 
能 对 合法 的 空白 字符 做 出 妥善 处 理 。 


提示 虽然 模式 ^\s*<\?xml.*\?> 解 决 了 上 例 中 的 问题 ， 但 
那 只 是 因为 这 个 例子 里 的 原始 文本 并 不 完整 而 已 。 如 果 这 段 原 


始 文本 是 一 份 完整 的 XML 文档 , 这 个 例子 将 变 成 一 个 “ 贫 焚 型 ” 
元 字符 的 典型 示例 。 还 好 ， 我 们 已 经 知道 解决 “ 贪 柳 型 ”元 字 
符 问题 的 最 佳 办 法 是 把 ,* 替 换 为 .*?。 





除了 位 置 上 的 差异 ，$ 的 用 法 与 ^ 完 全 一 样 。 比 如 说 ， 在 一 份 Web 页 
面 里 ，</htm1> 标 签 的 后 面 不 应 该 再 有 任何 实际 内 容 ， 而 这 一 点 可 以 用 
下 面 这 个 模式 来 检查 : 


</[Hh] [Tt] [Mm] [L1]>\s*$ 

我 们 用 了 4 个 字符 集合 来 分 别 匹 配 H、T、M、L 等 4 个 字符 (这 样 就 可 
以 对 这 几 个 字符 的 各 种 大 小 写 组 合 形式 进行 处 理 了 ),\s*$ 匹 配 一 个 字符 
串 结尾 处 的 零 个 或 多 个 空白 字符 。 






人 注意， 模式 ^.*$ 是 一 个 在 语法 上 完全 正确 的 正则 表达 式 ; 它 几 
= 多” 手 总 能 找到 一 个 匹配 但 没有 任何 实际 用 途 . 你 能 分 析出 这 个 
模式 将 匹配 什么 以 及 它 在 什么 情况 下 会 找 不 到 任何 匹配 吗 ? 
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分 行 匹 配 模式 


我 们 刚刚 讲 过 , “匹配 - 个 字符 串 的 开头 ，$ 匹 配 一 个 字符 串 的 结尾 。 
但 这 一 结论 并 非 绝 对 正确 ， 它 还 有 一 个 例外 或 者 说 有 一 种 改变 这 种 行为 
的 办 法 。 

有 许多 正则 表达 式 都 支持 使 用 一 些 特 殊 的 元 字符 去 改变 另外 一 些 元 
字符 行为 的 做 法 ， 用 来 启用 分 行 匹 配 模式 (mujtiline mode) 的 (?m) 记号 
就 是 一 个 能 够 改变 其 他 元 字符 行为 的 元 字符 序列 。 分 行 匹 配 模式 将 使 得 
正则 表达 式 引 区 把 行 分 隔 符 当做 一 个 字符 串 分 隔 符 来 对 待 。 在 分 行 匹 配 
模式 下 , “不 仅 匹 配 正常 的 字符 串 开 头 ， 还 将 匹配 行 分 隔 符 〈 换 行 符 ) 后 
面 的 开始 位 置 〈 这 个 位 置 是 不 可 见 的 )， 类 似 地 ，$ 不 仅 匹配 正常 的 字符 
串 结 尾 ， 还 将 匹配 行 分 隔 符 〈 换 行 符 ) 后 面 的 结束 位 置 。 


在 使 用 时 ，(?m) 必须 出 现在 整个 模式 的 最 前 面 ， 就 像 下 面 这 个 例子 
里 那样 。 在 这 个 例子 里 ， 我 们 将 使 用 一 个 正则 表达 式 把 一 段 JavaScript 代 
码 里 的 注释 内 容 全 部 查找 出 来 : 


<SCRIPT> 
function doSpellCheck (form, field) { 
/1/ Make Sure not empty 
if (field.vaiue == '') { 
return false; 
} 
/i Init 
var windowName='spellWindow'; 
var 


spellCheckURL='spell.cfm?formname=comment&fieldname='+field. 
wname; 


1/ Done 
return false; 


上 
</SCRIPT> 
正则 表达 式 


(?m)“\s*//.*$ 
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结果 


<SCRIPT> 
function doSpellCheck(form, field) { 

//! Make sure not empty 

if (field.value == '') { 

return false; 

} 

/1/ Init 

var windowName='spellWindow'; 

var 
spellCheckURL='spell.cfm?formname=comment&fieldname='+field. 
wnNAame; 


/1/ Done 
return false; 


} 
</SCRIPT> 


分 析 


^\s*//.*$ 将 匹配 一 个 字符 串 的 开始 ， 然 后 是 任意 多 个 空白 字符 ， 
再 后 面 是 //〈JavaScript 代 码 里 的 注释 标签 )， 再 往 后 是 任意 文本 ， 最 后 是 
一 个 字符 串 的 结束 。 不 过 ， 这 个 模式 只 能 找 出 第 一 条 注释 〈 并 认为 这 条 
注释 将 一 直 延 续 到 文件 的 末尾 ， 因 为 * 是 一 个 “ 贪 禁 型 ”元 字符 )。 加 上 
(?m) 前 缀 之 后 ，(?m)^\s*//.*$ 将 把 换行 符 视 为 一 个 字符 串 分 隔 符 ， 这 
样 就 可 以 把 每 一 行 注 释 都 匹配 出 来 了 。 


[OD 警告 有 许多 正则 表达 式 实现 不 支持 (?m)。 


和 次 注意 有 些 正 则 表达 式 实现 还 支持 使 用 \A 来 定义 一 个 字符 囊 
<4 的 开始 ， 以 \Z 来 定义 一 个 字符 囊 的 结束 的 做 法 ， 此 时 ，\A 和 
\B 的 作用 将 基本 等 价 于 ^ 和 $， 但 请 注意 ，\A 和 \B 不 会 因为 加 


上 了 (?m) 前 级 而 改变 行为 。 换 句 话说 , 在 跨行 匹配 模式 下 使 用 
\A 和 \B 的 做 法 不 会 收 到 在 分 行 匹配 模式 下 使 用 ^ 和 $ 的 效果 。 





6.4 小结 


正则 表达 式 不 仅 可 以 用 来 匹配 任意 长 度 的 文本 块 ， 还 可 以 用 来 匹配 
出 现在 字符 串 中 特定 位 置 的 文本 。\b 用 来 指定 一 个 单词 边界 (\B 刚 好 相 
反 )。^ 和 $ 用 来 指定 字符 串 边界 (字符 串 的 开头 和 字符 串 的 结束 )。 如 果 


与 (?m) 配 合 使 用 “和 $ 还 将 匹配 在 一 个 换行 符 处 开头 或 结束 的 字符 串 


(此 时 ， 换 行 符 将 被 视 为 一 个 字符 串 分 隔 符 )。 


第 7 章 
使 用 子 表达 式 


元 字符 和 字符 是 正则 表达 式 的 基本 构件 ， 它 们 的 用 法 我 们 已 经 在 此 
前 的 章节 里 演示 过 了 。 在 这 一 章 里 ， 你 们 将 学 习 如 何 运 用 子 表达 式 
Csubexpression) 的 概念 对 表达 式 进 行 分 组 和 归 类 。 


7.1 什么 是 子 表达 式 


我 们 在 第 5 章 学 习 了 如 何 匹 配 一 个 字符 的 连续 多 次 重复 。 正 如 我 们 讨 
论 的 那样 ，\d+ 将 匹配 一 个 或 多 个 数字 字符 ， 而 https?:// 将 匹配 
http:// 或 https://。 


在 这 两 个 例子 里 (事实 上 ， 是 在 我 们 此 前 见 过 的 所 有 例子 里 )， 用 来 
表明 重复 次 数 的 元 字符 (如 ?或 * 或 {2}, 等 等 ) 只 作用 于 紧 挨 着 它 的 前 一 
个 字符 或 元 字符 。 

我 们 来 看 一 个 例子 。 有 些 短语 (例如 Windows 2000) 虽然 由 多 个 单 
词 构成 , 但 其 实 是 一 个 整体 。 有 许多 HTML 程 序 员 喜 欢 让 这 类 短语 在 浏览 
器 里 显示 在 同一 行 上 。 为 了 确保 这 一 点 ， 他 们 会 在 编写 HTML 文档 时 在 这 
些 短语 的 单词 之 间 使 用 非 换 行 型 空格 (&nbsp;，nbsp 是 “non-breaking 
space” 的 缩写 ， 其 含义 是 “不 是 换行 符 的 空格 ”) 而 不 是 普通 的 空格 。 下 
面 就 是 一 个 这 样 的 例子 : 


Hello, my name is Ben&nbsp;Forta, and I am 
the author of books on SQL, ColdFusion, WAP, 
Windows&nbsp;&nbsp;2000, and other subjects. 





正则 表达 式 
&nbsp; {2,} 
结果 


Hello, my name is Ben&nbsp;Forta, and I am 
the author of books on SQL, ColdFusion, WAP, 
Windows&nbsp;&nbsp;2000，and other subjects. 


分 析 | 


&nbsp; 是 HTML 语 言 中 的 非 换行 空格 字符 。 在 这 里 使 用 模式 
&nbsp;{2，} 的 本 意 是 希望 它 能 把 &nbsp ;连续 两 次 或 更 多 次 的 重复 出 现 
找 出 来 ， 但 它 没 能 给 出 我 们 所 预期 的 结果 。 为 什么 会 这 样 ? 因为 {2，} 
只 作用 于 紧 挨 着 它 的 前 一 个 字符 一 一 那 是 一 个 分 号 。 如 此 一 来 ， 这 个 模 


7.2 子 表达 式 


这 就 引出 了 子 表达 式 的 概念 。 子 表达 式 是 一 个 更 大 的 表达 式 的 一 部 
分 ， 把 一 个 表达 式 划分 为 一 系列 子 表达 式 的 目的 是 为 了 把 那些 子 表达 式 
当 作 一 个 独立 元 素来 使 用 。 子 表达 式 必须 用 (和 ) 括 起 来 。 





提示 。 (和) 是 元 字符 . 如 果 需 要 匹配 (和 ) 本身, 就 作 须 使 用 它 
的 转 义 序列 \ (和 \). 


为 了 演示 子 表达 式 的 用 法 ， 我 们 来 看 看 刚才 的 那个 例子 : 
区 3 


Hello, my name is Ben&nbsp;Forta, and I am 
the author of books on SQL, ColdFusion, WAP, 
Windows&nbsp;&nbsp;2000, and other subjects. 


正则 表达 式 
(&nbsp; ){2,} 
结果 


Hello, my name is Ben&nbsp;Forta, and I am 
the author of books on SQL, ColdFusion, WAP, 
Windows&nbsp;&nbsp;2000，and other subjects. 
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(&nbsp; ) 是 一 个 子 表达 式 ， 它 将 被 视 为 一 个 独立 元 素 ， 而 紧 跟 在 它 
后 面 的 {2，} 将 作用 于 这 个 子 表达 式 (不 仅仅 是 分 号 )。 这 个 模式 解决 了 
我 们 的 问题 。 

我 们 再 来 看 一 个 例子 ， 这 次 是 用 一 个 正则 表达 式 来 查找 IP 地 址 。IP 
地 址 的 格式 是 以 英文 句号 分 隔 的 四 组 数字 ， 例 如 12.1$9.46.200。 因 为 每 组 
数字 由 1 个 、2 个 或 3 个 数字 字符 构成 ， 所 以 这 4 组 数字 可 以 统一 使 用 模式 
\d{1，3} 来 匹配 。 下 面 就 是 这 个 例子 : 


Pinging hog.forta.com [12.159.46.200] 
With 32 bytes of data: 


正则 表达 式 
\df1,3}\.\df1,3}\.\dt1,3}\.\dft1,3} 
结果 


Pinging hog.forta.com [12.159.46.2001] 
WwWith 32 bytes of data: 


\d{1，3} 在 这 个 模式 里 重复 了 4 次 ， 它 们 分 别 匹 配 IP 地 址 里 的 一 组 
数字 。IP 地 址 里 的 4 组 数字 由 .分 隔 ,， 该 字符 由 模式 里 的 转 义 序列 \ ,负责 
匹配 。 

稍微 留意 一 下 就 会 发 现 ， 在 这 个 例子 里 ， 模 式 \d{1，3}\ . (最 多 3 
个 数字 字符 、 后 面 跟着 一 个 . ) 连续 出 现 了 3 次 ， 它 同样 可 以 被 表达 为 一 
个 重复 。 下 面 是 这 个 例子 的 另 一 种 解决 方案 : 


Pinging hog.forta.com [12.159.46.200] 
with 32 bytes of data: 


正则 表达 式 


(\d{1,3}\.){3}\d{1,3} 
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结果 


Pinging hog.forta.com [12.159.46.200] 
With 32 bytes of data: 


分 析 | 


这 个 模式 与 前 面 那个 有 着 同样 的 效果 ， 但 我 们 这 次 使 用 了 男 一 种 
语法 : 先 用 (和 ) 把 表达 式 \d{1，,3}\ . 插 起 来 使 它 成 为 一 个 子 表达 式 ， 
再 用 \d{1，3}\ . ) {3} 把 这 个 子 表 达 式 重复 了 3 次 (它们 对 应 着 IP 地 
址 里 的 前 3 组 数字 )， 最 后 面 的 \d{1，3} 用 来 匹配 IP 地 址 里 的 最 后 一 组 
数 宇 未 





SEE 注意 在 上 面 这 个 例子 里 ， 使 用 (\d{1，3}\ .) {4} 作 为 模式 
~ 是 不 妥当 的 。 你 能 分 析出 为 什么 不 能 用 它 来 解决 这 个 问题 吗 ? 


提示 “为 了 提高 可 读 性 ， 有 不 少 用 户 喜 欢 给 表达 式 的 每 一 个 子 
表达 式 都 加 上 括号 。 比如， 把 上 面 那 个 例子 里 的 模式 写成 


(\d{1，3}\ .){3}(\d{1，3})。 这 种 做 法 在 语法 上 完全 成 
立 , 对 表达 式 的 实际 行为 也 没有 任何 不 良 影响 (但 视 乎 具体 的 
正则 表达 式 实 现 ， 这 对 匹配 操作 的 速度 可 能 会 有 点 儿 影 响 )。 





子 表达 式 是 一 个 非常 重要 的 概念 ， 所 以 我 们 认为 有 必要 再 给 大 家 看 
一 个 例子 ， 它 不 涉及 重复 次 数 问题 。 在 下 面 的 例子 里 ， 我 们 的 任务 是 把 
-条 用 户 记 录 里 的 年 份 数字 完整 地 匹配 出 来 : 


ID: 042 
SEX: M 
DOB: 1967-08-17 
Status: Active 


正则 表达 式 


19|20\d{2} 
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ID: 042 

SEX: M 

DOB: 1967-08-17 
Status: Active 


分 析 | 


这 个 例子 需要 我 们 构造 一 个 模式 去 查找 一 个 4 位 数 的 年 份 数字 。 为 了 
排除 没有 实际 意义 的 结果 ， 我 们 把 前 两 位 数字 限定 为 19 和 20。 这 个 模式 
里 的 | 字符 是 正则 表达 式 语言 里 的 或 操作 符 ，19 |28 将 匹配 数字 序列 19 或 
20。 既然 如 此 , 模式 19|280\d{2} 应 该 匹配 以 19 或 20 开 头 的 四 位 数字 (19 
或 28 的 后 面 再 跟着 两 位 数字 )。 可 是 ， 这 个 模式 的 匹配 结果 与 我 们 的 预期 
并 不 相符 ， 它 只 匹配 到 了 19， 随 后 两 位 数字 没有 被 匹配 到 。 为 什么 会 这 
样 ? 因为 | 操作 符 是 把 位 于 它 左 边 和 右边 的 两 个 部 分 都 作为 一 个 整体 来 
看 待 的 ， 它 会 把 模式 19|20\d{2} 解 释 为 19 或 20\d{2}〈 也 就 是 把 \d{2} 
解释 为 以 20 开 头 的 那个 表达 式 的 一 部 分 )。 换 句 话说 ， 它 将 匹配 数字 序列 
19 或 以 20 开 头 的 任意 4 位 数字 。 最 终 的 结果 你 们 已 经 看 到 了 ， 它 只 匹配 到 
了 19。 


这 个 例子 的 正确 答案 是 把 19|20 归 为 一 个 子 表 达 式 ， 如 下 所 示 : 


ID: 042 

SEX: M 

D0B: 1967-08-17 
Status: Active 


正则 表达 式 


(19|20) \d{2} 


结果， 

ID: 042 

SEX: M 

DOB: 1967-08-17 
Status: Active 


分 析 
我 们 把 所 有 的 选项 都 归纳 到 了 一 个 子 表 达 式 里 ， 这 将 向 | 表明 我 们 打 
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算 匹 配 的 是 这 个 子 表 达 式 里 的 选项 之 一 。(19|20)\d{2} 正 确 地 匹配 到 了 
1967; 当然 ， 以 19 或 20 开 头 的 任何 一 个 4 位 数字 都 将 与 这 个 模式 相 匹 配 。 
今后 〈 比 如 ， 从 现在 算 起 100 年 内 )， 如 果 需 要 修改 这 段 代 码 以 包括 以 21 
开头 的 御 份 ， 只 要 把 这 个 模式 改 成 (19120121) \d{f2} 就 可 以 了 。 


本 章 讨论 的 只 是 子 表达 式 的 用 途 之 一 。 子 表达 式 还 有 另外 一 个 非常 
重要 的 用 途 ， 我 们 将 在 第 8 章 里 对 之 进行 讨论 。 


7.3 子 表 达 式 的 藤 套 


子 表达 式 允 许 嵌 套 。 事 实 上 ， 子 表达 式 允 许多 重 嵌 套 ， 这 种 嵌 套 的 
层次 在 理论 上 没有 限制 ， 但 在 实际 工作 中 还 是 应 该 遵循 适可而止 的 原则 。 


多 重 嵌 套 的 了 表达 式 可 以 构造 出 功能 极其 强大 的 正则 表达 式 来 ， 但 
那 难免 会 让 模式 变 得 难以 阅读 和 理解 ， 而 这 也 正 是 很 多 人 觉得 正则 表达 
式 难以 学 习 和 掌握 的 原因 之 一 。 这 种 表面 现象 掩盖 了 这 样 一 个 事实 : 绝 
大 多 数 嵌 套子 表达 式 都 没有 它们 看 上 去 那么 复杂 。 


为 了 演示 给 套子 表达 式 的 用 法 , 我们 再 去 看 看 刚才 那个 匹配 IP 地 址 的 
例子 。 下 面 是 我 们 刚才 使 用 的 模式 先是 一 个 连续 重复 3 次 的 子 表达 式 ， 
然后 是 最 后 一 组 数字 ): 


(\d{1,3}\.){3}\d{1,3} 

这 个 模式 有 什么 不 对 的 地 方 吗 ? 从 语法 上 讲 , 它 完 全 正确 IP 地址 由 
四 组 数字 构成 ， 每 组 数字 由 1 到 3 个 数字 字符 构成 ， 它 们 之 间 以 英文 句号 
分 隔 。 说 这 个 模式 正确 ， 是 因为 所 有 合法 的 IP 地 址 都 与 之 相 匹 配 。 但 深入 
研究 一 下 就 会 发 现 ， 这 个 模式 还 可 以 匹配 其 他 一 - 些 东 西 ， 说 得 明白 点 儿 ， 
不 合法 的 IP 地 址 也 能 与 之 相 匹 配 。 


IP 地 址 由 4 个 字 节 构成 ，IP 地 址 中 的 4 组 数字 分 别 对 应 着 那 4 个 字 节 ， 
所 以 IP 地 址 里 的 每 组 数字 的 取 值 范围 也 就 是 单个 字 节 的 表示 范围 ， 即 
0~255。 这 意味 着 IP 地 址 里 的 每 一 组 数字 都 不 能 大 于 255， 可 是 上 面 那个 
模式 还 能 匹配 诸如 345、700、999 之 类 的 数字 序列 ， 而 这 些 数 字 企 IP 地 址 
里 都 是 非法 的 。 
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Psg | 注意 有 句 话 希 望 你 能 牢 牢 记 住 : 把 必须 匹配 的 情况 考虑 周全 


一 并 写 出 一 个 匹配 结果 符合 预期 的 正则 表达 式 很 容易 , 但 把 不 需 
要 匹配 的 情况 也 考虑 周全 并 确保 它们 都 将 被 排除 在 匹配 结果 
以 外 往往 要 困难 得 多 。 





如 果 有 办 法 设 定 各 种 取 值 范围 的 话 ， 事 情 会 简单 得 多 ， 但 可 惜 的 是 
正则 表达 式 只 是 一 种 工具 ， 而 且 还 是 一 种 不 懂 数 学 运算 的 工具 ， 它 们 在 
允 配 字符 的 时 候 并 不 真正 关心 那些 字符 到 底 是 什么 以 及 有 什么 含义 。 你 
的 数学 能 力 再 好 在 这 里 也 帮 不 上 忙 。 

真 的 没有 解决 这 个 问题 的 办 法 吗 ? 未 必 ， 只 要 你 们 能 够 充分 发 挥 
你 们 的 逻辑 思维 能 力 ， 就 能 解决 与 正则 表达 式 有 关 的 任何 难题 。 这 里 
的 基本 思路 是 : 在 构造 一 个 正则 表达 式 的 时 候 ， 一 定 要 把 你 想 匹 配 什 
么 和 你 不 想 匹 配 什 么 详尽 地 定义 清楚 。 下 面 是 一 个 合法 的 IP 地 址 里 的 
各 组 数字 必须 且 只 能 符合 的 规则 ， 我 们 随后 将 根据 这 些 规则 来 构造 一 
个 相应 的 模式 : 

口 任何 一 个 1 位 或 2 位 数字 。 

口 任何 一 个 以 1 开头 的 3 位 数字 。 

口 任何 一 个 以 2 开头 、 第 2 位 数字 在 0~4 之 间 的 3 位 数字 。 

口 任何 一 个 以 25 开 头 、 第 3 位 数字 在 0~5 之 间 的 3 位 数字 。 


像 这样 把 所 有 的 正则 全 部 罗列 出 来 之 后 ， 构 造 一 个 同时 符合 所 有 原 
则 的 模式 的 具体 步骤 也 就 清晰 了 。 下 面 是 这 个 例子 的 继续 : 


Pinging hog.forta.com [12.159.46.200] 
with 32 bytes of data: 


(((\d{1,2})| (1\d{2})| (2[0-4]\d)|(25[0-5]))\.){3} 
=w((\d{1,2})|(1\d{2})| (2[0-4]\d)|(25[0-5])) 


Pinging hog.forta.com [12.159.46.200] 
with 32 bytes of data: 


这 个 模式 的 使 用 效果 显而易见 ， 但 它 还 是 需要 仔细 研读 才能 看 明白 。 
这 个 模式 由 一 系列 栓 套 子 表达 式 构成 。 我 们 先 来 说 说 由 4 个 子 表达 式 构 成 
的 (((\d{1, 2}) | (1\d{2}) | (2[0-4]\d) | (25{0-5])\ .): 
(\d{1，2}) 匹 配 任 意 一 位 或 两 位 数字 《0~99); (1\d{2}) 匹 配 以 1 开头 
的 任意 三 位 数字 (100~199); (2[0-41\d) 匹 配 整 数 200~249; (25[0-5]) 
匹配 整数 250~255。 这 几 个 子 表达 式 通 过 | 操作 符 结 合 为 一 个 更 大 的 子 表 
达 式 (其 含义 是 只 需 匹 配 这 4 个 子 表达 式 之 一 即 可 )。 随后 的 \ .用 来 匹配 . 
字符 ， 它 与 前 4 个 子 表达 式 构成 的 子 表达 式 又 构成 了 一 个 更 大 的 子 表达 式 
(4 组 数字 选项 和 \、. )， 而 接 下 来 的 {3} 表 明 需 要 重复 3 次 。 最 后 ， 数 值 范 
围 又 重复 了 一 次 (这 次 省 略 了 尾部 的 \ .〉 以 匹配 IP 地 址 里 的 最 后 一 组 数 
字 。 通 过 把 4 组 数字 的 取 值 范围 都 限制 在 0~255 之 间 ， 这 个 模式 准确 无 误 
地 做 到 了 只 匹配 合法 的 IP 地 址 、 不 匹配 非法 的 IP 地 址 。 


提示 ”上面 这 个 例子 里 的 正则 表达 式 看 起 来 很 难 理解 . 把 它们 
弄 明 白 的 关键 是 要 把 它们 分 解 开 、 每 次 只 分 析 和 理解 一 个 子 表 
达 式 。 在 分 析 各 个 子 表 达 式 的 时 候 ， 应 该 按照 先 内 后 外 的 原则 


来 进行 而 不 是 从 第 一 个 字符 开始 一 个 字符 一 个 字符 地 去 尝试 。 
你 有 过 几 次 这 样 的 经 验 之 后 就 会 发 现 ， 谈 套子 表达 式 并 不 像 它 
们 看 上 去 那么 复杂 。 





7.4 小结 


子 表达 式 的 作用 是 把 同一 个 表达 式 的 各 个 相关 部 分 组 合 在 一 起 。 子 
表达 式 必 须 用 (和 ) 来 定义 。 子 表达 式 的 常见 用 途 包 括 : 对 重复 次 数 元 字 
符 的 作用 对 象 做 出 精确 的 设 定 和 控制 、 对 | 操作 符 的 OR 条 件 做 出 准确 的 
定义 ， 等 等 。 如 有 必要 ， 子 表达 式 还 允许 嵌 套 使 用 。 
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第 7 章 介 绍 了 子 表达 式 的 基本 用 途 之 一 : 把 一 组 字符 编组 为 一 个 字符 集 
合 。 这 样 的 字符 集合 主要 用 于 精确 设 定 需要 重复 匹配 的 文本 及 其 重复 次 数 。 
本 章 将 讨论 子 表达 式 的 男 一 个 重要 用 途 一 一 定义 回溯 引用 《backreference)。 


8.1 回溯 引用 有 什么 用 


为 了 理解 回溯 引用 的 概念 ,我们 最 好 是 看 一 个 例子 。HTML 程 序 员 经 
常 使 用 标题 标签 (<H1> 到 <H6>， 以 及 配对 的 结束 标签 ) 来 定义 和 排版 
Web 页 面 里 的 标题 文字 。 现 在 ， 我 们 不 妨 假设 你 需要 把 某 个 Web 页 面 里 
的 所 有 标题 文字 全 都 查找 出 来 ， 而 不 管 它 的 级 别 是 多 少 。 下 面 就 是 这 个 
例子 : 


<BODY> 

<H1>Welcome to my Homepage</H1> 

Content is divided into two sections:<BR> 
<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 802.11, and more. 
</BODY> 


<[hH]j1>.*</[hH]1> 
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结果 

<BODY> 

<H1>Welcome to my Homepage</H1> 

Content is divided into two sections:<BR> 


<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 8082.11, and more. 
</BODY> 


模式 <[hH]1>.*</[hH]1> 只 能 匹配 一 级 标题 (从 <H1> 或 <h1> 到 
</H1> 或 </h1>; HTML 语 言 不 区 分 字母 的 大 小 写 )。 但 我 们 刚才 说 的 是 匹配 
任意 级 别 的 标题 (HTML 文档 里 的 标题 总 共有 6 个 级 别 )， 这 应 该 怎么 办 呢 ? 


最 容易 想到 的 办 法 是 用 一 个 字符 集合 来 代替 +， 如 下 所 示 ; 


<BODY> 

<H1>Welcome to my Homepage</H1> 

Content is divided into two sections:<BR> 
<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth，802.11，and more. 
</BODY> 


正则 表达 式 


<[hH] [1-6]>.*?</[hH][1-6]> 


<BODY> 
<Hi>Welcome to my Homepage</H1> 
Content is divided into two sections:<BR> 


<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 8082.11, and more. 
</BODY> 


这 个 模式 看 来 不 错 , <[hH] [1-6]> 匹 配 任何 一 级 标题 的 开始 标签 ( 具 
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体 到 这 个 例子 , 它 匹配 到 了 <H1> 和 <H2>),， </[hH] [1-6]> 匹 配 任何 一 级 
标题 的 结束 标签 (具体 到 这 个 例子 ， 它 匹配 到 了 </H1> 和 </H2>)。 


注意 ”这 里 使 用 的 是 .*? (懒惰 型 ) 而 不 是 .* ( 贪 禁 型 ).、 我 
一 们 在 第 $ 章 里 讲 过 ，* 和 其 他 几 个 元 字符 是 “ 仿 焚 型 ”元 字符 ， 
所 以 模式 <[hH] [1-6]>.*</[hH][1-6]> 有 可 能 会 从 第 2 行 的 
<H1> 一 直 匹 配 到 第 6 行 的 </H2>， 这 可 不 是 我 们 想 要 的 结果 ; 

使 用 “懒惰 型 ” 元 字符 .*? 解 决 了 这 个 问题 。 


之 所 以 说 “有 可 能 ”而 不 是 “肯定 ”， 是 因为 在 这 个 特定 的 例 
子 里 即便 是 使 用 了 “ 贪 禁 型 ”元 字符 也 不 一 定 会 有 问题 。 一 般 
来 说 ， 元 字符 .不 匹配 换行 符 ， 而 上 例 中 的 每 个 标题 都 各 自 占 
据 一 行 。 但 在 这 里 使 用 懒惰 型 元 字符 没有 任何 坏处 一 一 事前 小 
心 总 比 事后 后 悔 好 。 





现在 成 功 了 吗 ? 未 必 。 看 看 下 面 这 个 例子 (这 次 使 用 的 是 还 是 刚才 
那个 模式 )， 你 就 知道 我 为 什么 这 样 说 了 : 


<BODY> 

<H1>Welcome to my Homepage</H1> 

Content is divided into two sections:<BR> 
<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 802.11, and more. 
<H2>This is not valid HTML</H3> 

</BODY> 


正则 表达 式 
<[hH][1-6]>.*?</[hH][1-6]> 


。 


<BODY> 
<H1>Welcome to my Homepage</H1> 
Content is divided into two sections:<BR> 


<H2>ColdFusion</H2> 
Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 
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Information about Bluetooth，802.11，and more . 
<H2>This is not Valid HTML</H3> 
</BODY> 


分 析 | 
在 这 个 例子 里 ， 原 始 文本 里 有 一 个 标题 是 以 <H2> 开 头 、 以 <H3> 结 束 
的 。 这 显然 尾 一 个 不 合法 的 标题 ， 但 它 与 我 们 所 使 用 的 模式 匹配 上 了 。 


出 现 这 种 情况 的 根源 是 这 个 模式 的 第 2 部 分 〈 用 来 匹配 结束 标签 的 那 
个 部 分 )》 对 这 个 模式 的 第 1 部 分 〈 用 来 匹配 开始 标签 的 那个 部 分 ) 毫 无 所 
知 。 要 想 彻 底 解决 这 个 问题 ， 就 只 能 求助 于 回溯 引用 。 


8.2 ”回溯 引用 匹配 


我 们 等 会 儿 青 去 解决 匹配 HITML 标 题 的 问题 。 先 来 看 一 个 比较 简单 的 
例子 ， 这 个 问题 如 果 不 使 用 回溯 引用 将 根本 无 法 解决 。 


假设 你 有 一 段 文本 , 你 想 把 这 段 文本 里 所 有 连续 重复 出 现 的 单词 ( 打 
字 错 误 ， 其 中 有 … 个 单词 输 了 两 遍 ) 找 出 来 。 显 然 ， 在 搜索 某 个 单词 的 
第 二 次 出 现时 ， 这 个 单词 必须 是 已 知 的 。 回 溯 引 用 允许 正则 表达 式 模式 
引用 前 面 的 匹配 结果 《具体 到 这 个 例子 ， 就 是 前 面 匹配 到 的 单词 )。 


把 这 个 问题 弄 明白 的 最 佳 办 法 是 看 看 它 到 底 是 如 何 上 作 的 。 下 面 是 
一 段 包含 着 3 组 重复 单词 的 文本 ， 它 们 就 是 我 们 要 找 的 东西 


EE3 


This is a block of of text, 
several words here are are 
repeated, and and they 
should not be. 


正则 素 达 式 


[ J]+(\w+)[ J+\1 


结果 


This is a block of of text， 
several words here are are 
repeated, and and they 
should not be. 
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这 个 模式 找到 了 我 们 想 要 的 东西 ， 但 它 是 如 何 做 到 这 一 点 的 呢 ? 
[ ]+ 匹 配 一 个 或 多 个 空格 ，\w+ 匹 配 一 个 或 多 个 字母 数字 字符 ，[ ]+ 匹 
配 随 后 的 空格 。 注 意 ，\w+ 是 括 在 括号 里 的 ， 它 是 一 个 子 表达 式 。 这 个 子 
表达 式 不 是 用 来 进行 重复 匹配 的 ， 这 里 根本 不 涉及 重复 匹配 的 问题 。 这 
个 子 表达 式 只 是 把 整个 模式 的 一 部 分 单独 划分 出 来 以 便 在 后 面 引 用 。 这 
个 模式 的 最 后 一 部 分 是 \1; 这 是 一 个 回溯 引用 ， 而 它 引用 的 正 是 前 面 划 
分 出 来 的 那个 子 表达 式 : 当 (\w+) 匹 配 到 单词 of 的 时 候 ，\1 也 匹配 单词 
of; 当 (\w+) 匹 配 到 单词 and 的 时 候 ，\1 也 匹配 单词 and。 


注意 ”回溯 引用 指 的 是 模式 的 后 半 部 分 引用 在 前 半 部 分 中 定 
= 义 的 子 表达 式 〈 如 上 例 所 示 )，。 


3 





\1 到 底 代表 着 什么 ? 它 代 表 着 异 式 里 的 第 1 个 子 表达 式 ，\2 代 表 者 第 
2 个 子 表达 式 、\3 代 表 着 第 3 个 ; 依次 类 推 。 于 是 ， 在 上 面 那个 例子 里 ， 
[ ]+(\w+)[ ]+\1 将 匹配 同一 个 单词 的 连续 两 次 重复 出 现 。 


Y 提示 “你们 可 以 把 回溯 引用 想像 成 变量 。 


看 过 回溯 引用 的 用 法 之 后 ， 我 们 再 回 过 头 来 看 看 应 该 如 何 解决 匹配 
HTML 标 题 的 问题 。 利用 回溯 引用 , 构造 一 个 模式 去 匹配 任何 一 级 标题 的 
开始 标签 和 与 之 配对 的 结束 标签 (忽略 任何 不 配对 的 标签 组 合 ) 对 我 们 
来 说 已 经 不 是 什么 难题 了 。 下 面 就 是 这 个 例子 : 


<BODY> 

<H1>Welcome to my Homepage</H1> 

Content is divided into two sections:<BR> 
<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 802.11, and more. 
<H2>This is not valid HTML</H3> 

</BODY> 


8.2 回溯 引用 匹配 73 


正则 表达 式 
<[hH] ([1-6])>.*?</[hH]\1> 


<BODY> 

<H1>Welcome to my Homepage</H1> 

Content is divided into two sections:<BR> 
<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 802.11, and more. 
<H2>This is not valid HTML</H3> 

</BODY> 


总 共 找 到 了 3 个 匹配 :1 个 一 级 标题 (<H1>. . .</H1>) 和 2 个 二 级 标 

题 (<H2>...</H2>)。<[hH] ([1-6])> 匹 配 任何 一 级 标题 的 开始 标签 ， 

但 我 们 这 次 用 (和 ) 把 [1-6] 括 了 起 来 ， 使 它 成 为 了 一 个 子 表达 式 。 这 样 

来 ， 我 们 就 可 以 在 用 来 匹配 标题 结束 标签 的 </[hH] \1> 用 \1 来 引用 这 

个 子 表达 式 了 。 子 表达 式 ([1-6] ) 匹 配 数字 1~6，\1 只 匹配 与 之 相同 的 数 

字 。 这 样 一 来 ， 原 始 文本 里 的 <H2>This is not valid HTML</H3> 
就 不 会 被 匹配 到 了 。 


注意 不 同 的 正则 表达 式 在 实现 回溯 引用 的 语法 方面 往往 有 
着 巨大 的 差异 。 

JavaScript 使 用 \ 来 标识 回溯 引用 (\ 与 $ 配 合 进行 替换 操作 时 是 

例外 )，Macromedia ColdFusion 和 vi 也 是 如 此 。.NET 正 则 表达 

式 将 返回 一 个 对 象 ， 该 对 象 的 Groups 属 性 包含 着 所 有 的 匹配 一 一 

如 果 你 使 用 的 是 C# 语 言 ，match.Groups[1] 对 应 着 第 一 个 匹 


配 ; 如 果 你 使 用 的 是 Visual Basic .NET，match. Groups(1) 对 
应 着 第 一 个 匹配 。PHP 把 这 些 信 息 返回 为 一 个 名 为 $matches 数 
组 ,， $matches[1] 对 应 着 第 1 个 匹配 (但 这 一 行为 会 根据 你 在 匹 
配 操作 中 具体 使 用 的 命令 选项 发 生变 化 )。Java 和 Python 将 返回 
一 个 包含 着 一 个 名 为 group 的 数组 的 匹配 对 象 。 

有 关 细 节 参 阅 附录 A。 
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警告 ”回溯 引用 只 能 用 来 引用 模式 里 的 子 表 达 式 (用 (和 ) 括 起 
来 的 正则 表达 式 片 段 )。 


提示 “回溯 引用 匹配 通常 从 1 开始 计数 (\1、\2， 等 等 )。 在 许 
多 实现 里 ， 第 0 个 匹配 (\@) 可 以 用 来 代表 整个 正则 表达 式 。 


注意 正如 看 到 的 那样 ， 子 表达 式 是 通过 它们 的 相对 位 置 来 引 
用 的 : \1 对 应 着 第 1 个 子 表达 式 ，\5 对 应 着 第 5 个 子 表 达 式 , 等 


等 . 虽然 受到 普遍 的 支持 , 但 这 种 语法 存在 着 一 个 严重 的 不 足 : 
如 果子 表达 式 的 相对 位 置 发 生 了 变化 ， 整 个 模式 也 许 就 不 能 再 
完成 原来 的 工作 ， 删 除 或 添加 子 表达 式 的 后 果 可 能 更 为 严重 。 


为 了 弥补 这 一 不 足 ， 一 些 比 较 新 的 正则 表达 式 实现 还 支持 “ 命 
名 捕获 ”( named capture ): 给 某 个 子 表 达 式 起 一 个 唯一 的 名 字 ， 
然后 用 这 个 名 字 ( 而 不 是 相对 位 置 ) 来 引用 这 个 子 表达 式 。 因 
为 命名 捕获 还 没有 得 到 广泛 支持 , 而 且 已 支持 的 实现 具体 的 语 
法 也 极 不 统一 ， 所 以 本 书 没有 对 此 进行 讨论 。 但是， 如 果 你 正 
在 使 用 的 正则 表达 式 实现 支持 命名 捕获 功能 ( 如 .NET )， 你 应 
该 充分 利用 。 





8.3 ”回溯 引用 在 替换 操作 中 的 应 用 


到 目前 为 止 ， 你 们 在 这 本 书 里 见 到 的 正则 表达 式 都 是 用 来 执行 搜索 
的 ， 即 在 一 段 文本 里 查找 特定 的 内 容 。 你 在 今后 的 实际 工作 中 也 会 发 
现 ， 你 所 编写 的 绝 大 多 数 正则 表达 式 模式 也 可 以 用 来 搜索 文本 。 但 这 
并 不 是 正则 表达 式 的 全 部 功能 ， 正 则 表达 式 还 可 以 用 来 完成 各 种 复杂 
的 替换 操作 。 


简单 的 文本 替换 操作 无 须 使 用 正则 表达 式 就 可 以 完成 。 比 如 说 ， 如 
果 只 是 把 某 个 文档 里 的 CA 全 部 替换 为 California 或 把 MI 全 部 蔡 换 为 
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Michigan 的 话 ， 用 正则 表达 式 来 完成 这 些 替 换 就 未 免 有 点 儿 大 材 小 用 
了 。 这 人 句 话 的 意思 并 不 是 说 正则 表达 式 不 能 用 来 执行 这 种 替换 ， 只 是 那 
么 做 没有 什么 实际 价值 。 事 实 上 ， 用 普通 的 字符 串 处 理 函 数 来 完成 这 种 
替换 反而 会 更 容易 一 些 。 

正则 表达 式 更 适用 于 复杂 的 替换 ， 尤 其 是 需要 使 用 回溯 引用 的 场合 ， 那 
才能 体现 出 正则 表达 式 的 真正 威力 。 下面 是 一 个 我 们 在 第 5 章 里 见 过 的 例子 : 


Hello, ben@forta.com is my email address . 


\w+{\w\.j*@{ \W\ .1]+\.\w+ 


Hello, beneforta.com is my email address. 


这 个 模式 可 以 把 原始 文本 里 的 电子 邮件 地 址 查找 出 来 (详细 分 析 见 
第 5 章 )。 


现在 ,假设 你 需要 把 原始 文本 里 的 电子 邮件 地 址 全 都 转换 为 可 点 击 
的 链接 ， 你 该 怎么 办 ? 在 HTML 文 档 里 ， 你 需要 使 用 <A HREF="maito: 
user@address .com">user@address.com</A> 这 样 的 语法 来 创建 一 
个 可 点 击 的 电子 邮件 地 址 。 能 不 能 用 一 个 正则 表达 式 把 一 个 电子 邮件 地 
址 转换 为 这 种 可 点 击 的 地 址 格式 呢 ? 当然 能 ， 而 且 非 常 容易 一 一 但 前 提 
是 你 得 使 用 回溯 引用 ， 如 下 所 示 : 


Hello, ben@forta.com is my email address. 


正则 表达 式 
(\w+[\w\.]*@[\w\.]+\.\w+) 


<A HREF="mailto:$1">$1</A> 
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结果 


Hello, <A HREF="mailto:ben@forta.com">ben@forta.com</A> 
is my email address. 


蔡 换 操作 需要 用 到 两 个 正则 表达 式 ， 一 个 用 来 给 出 搜索 模式 ， 另 一 
个 用 来 给 出 匹配 文本 的 蔡 换 模式 。 回 溯 引 用 可 以 跨 模式 使 用 ， 在 第 一 个 
模式 里 被 匹配 的 子 表达 式 可 以 用 在 第 二 个 模式 里 。 这 里 使 用 的 模式 
(\w+[\w\ .]*@[\w\ .]+\ .\w+) 与 我 们 以 前 使 用 的 完全 一 样 〈( 匹 配 
电子 邮件 地 址 )， 但 这 次 把 它 写成 了 一 个 子 表达 式 。 这 样 一 来 ， 被 匹配 到 
的 文本 就 可 以 用 在 替换 模式 里 了 。<A HREF="mailto:$1">$1</A> 使 用 
了 两 次 被 匹配 的 子 表达 式 : 一 次 是 在 HREF 属 性 里 (来 定义 mailto: . . . )， 
为 一 次 是 做 为 可 点 击 文本 。 具 体 到 这 个 例子 ，ben@forta.com 变 成 了 <A 
HREF="mailto:ben@forta.com"> ben@forta.com </A>， 而 这 正 是 
我 们 想 要 的 结果 。 


警告 ”我们 刚才 讲 过 ,回溯 引用 语法 在 不 同 的 正则 表达 式 实现 
里 有 很 大 的 差异 : JavaScript 用 户 需要 用 $ 来 代替 \; ColdFusion 
用 户 在 查找 和 替换 操作 里 都 必须 使 用 \。 


提示 “正如 你 在 上 面 这 个 例子 里 看 到 的 那样 ， 同 一 个 子 表达 式 
可 以 被 引用 任意 多 次 一 一 只 要 在 需要 用 到 它 的 地 方 写 出 它 的 
回溯 引用 就 行 了 。 





我 们 再 来 看 一 个 例子 。 在 一 个 用 来 保存 用 户 信 息 的 数据 库 里 ， 电 话 
号 码 被 保存 为 313-555- 1234.。 现在 , 你 需要 把 电话 号 码 重新 排版 为 (313) 
555-1234。 下 面 就 是 这 个 例子 : 


313-555-1234 
248-555-9999 
810-555-9000 
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(\d{3})(-)(\d{3})(-)(\d{4}) 


($1) $3-$5 


(313) 555-1234 
(248) 555-9999 
(810) 555-9000 


和 刚才 一 样 ， 这 里 也 使 用 了 两 个 正则 表达 式 模式 。 第 1 个 模式 看 起 
来 很 复杂 ， 我 们 来 分 析 一 下 。(\d{3})(-)(\d{3})(-)(\d{4}) 用 来 
匹配 一 个 电话 号 码 ， 它 被 划分 为 5 个 子 表 达 式 (5 个 组 成 部 分 ): 第 1 个 
于 表达 式 (\d{3}) 匹 配 前 3 位 数字 ， 第 2 个 子 表 达 式 (- ) 匹 配 - 字 符 ， 等 
等 。 最终 的 结果 是 一 个 电话 号 人 码 被 划分 成 了 5 个 部 分 (每 个 部 分 分 别 对 
应 着 一 个 子 表达 式 ): 区 号 、 一 个 连 字符 、 电 话 号 码 的 前 3 位 数字 、 又 

-个 连 字 符 、 电 话 号 码 的 后 4 位 数字 。 这 5 个 部 分 都 可 以 单独 拿 出 来 使 
用 ， 负 责 重 新 排版 电话 号 码 的 替换 模式 ($1) $3-$5 只 用 到 了 它们 当中 
的 3 个 ， 剩 下 的 两 个 没有 用 到 ， 但 这 已 足以 把 313-555-1234 转 换 为 
(313) 555-1234。 


提示 ”在 对 文本 进行 重新 排版 的 时 候 ， 把 文本 分 解 成 多 个 子 表 


达 式 的 做 法 往往 非常 有 用 ， 这 可 以 让 我 们 对 文本 的 排版 效果 做 
出 更 精确 的 控制 。 





大 小 写 转 换 


有 些 正则 表达 式 实现 允许 我 们 使 用 表 8-1 列 出 的 元 字符 对 字母 进行 大 
小 写 转换 。 
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表 8-1 用 来 进行 大 小 写 转换 的 元 字符 


元 字符 说 明 
NE 结束 \L 或 \U 转 换 
\1 把 下 一 个 字符 转换 为 小 写 
\L 把 \L 到 \E 之 间 的 字符 全 部 转换 为 小 写 
\u 把 下 一 个 字符 转换 为 大 写 
\U 把 \U 到 \E 之 间 的 字符 全 部 转换 为 大 写 


\1 和 \u 只 能 把 下 一 个 字符 (或 子 表达 式 ) 转换 为 小 写 或 大 写 。\L 和 
\U 将 把 它 后 面 的 所 有 字符 转换 为 小 写 或 大 写 ， 直 到 遇 上 \E 为 止 。 


下 面 是 一 个 简单 的 例子 ， 把 一 级 标题 (<H1>. . .</H1>) 的 标题 文字 
转换 为 大 写 : 


<BODY> 

<H1>Welcome to my Homepage</H1> 

Content is divided into two sections:<BR> 
<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 8062.11, and more. 
<H2>This is not valid HTML</H3> 

</BODY> 


正则 表达 式 


(<[IHh]1>)(.*?)(</[Hh]1>) 


$1\U$2\E$3 

结果 

<BODY> 

<H1>WELCOME TO MY HOMEPAGE</H1> 

Content is divided into two Sections:<BR> 
<H2>ColdFusion</H2> 

Information about Macromedia ColdFusion. 
<H2>Wireless</H2> 

Information about Bluetooth, 802.11, and more. 
<H2>This is not valid HTML</H3> 

</BODY> 





模式 (<[Hh]1>)(.*?) (</[Hh]1>) 把 一 级 标题 分 成 了 3 个 子 表达 
式 : 开始 标签 、 标 题 文 字 、 结 束 标签 。 第 2 个 模式 再 把 文本 重新 组 合 起 来 : 
$1 包含 着 开始 标签 ，\U$2\E 把 第 2 个 子 表达 式 ( 标 题 文字 ) 转换 为 大 写 ， 
$3 包含 着 结束 标签 。 


8.4 小结 


子 表达 式 用 来 定义 字符 或 表达 式 的 集合 。 除 了 可 以 用 在 重复 匹配 操 
作 中 以 外 《〈 详 见 第 7 章 )， 子 表达 式 还 可 以 在 模式 的 内 部 被 引用 。 这 种 引 
用 被 称 为 回 渊 引用 。 回 溯 引 用 的 语法 在 不 同 的 正则 表达 式 实现 里 有 很 大 
的 差异 。 回 溯 引 用 在 文本 匹配 和 文本 替换 操作 里 非常 有 用 。 





第 9 章 六 
前 后 查找 一 





到 目前 为 止 ， 我 们 见 过 的 正则 表达 式 都 是 用 来 匹配 文本 的 ， 但 有 时 
我 们 还 需要 用 正则 表达 式 标 记 要 匹配 的 文本 的 位 置 〈 而 不 仅仅 是 文本 本 
身 )。 这 就 引出 了 前 后 查找 〈lookaround， 对 某 一 位 置 的 前 、 后 内 容 进 行 
查找 ) 的 概念 ， 我 们 将 在 这 一 章 对 此 做 专题 讨论 。 


9.1 前 后 查找 


我 们 还 是 先 来 看 一 个 例子 : 你 要 把 一 个 Web 页 面 的 页 面 标题 提取 出 
来 。HTML 页 面 标题 是 出 现在 <TITLE> 和 </TITLE> 标 签 之 间 的 文字 ， 而 
这 对 标签 又 必须 舱 在 HTML 代 码 的 <HEAD> 部 分 里 。 下 面 就 是 这 个 例子 : 


<HEAD> 


<TITLE>Ben fForta's Homepage</TITLE> 
< /HEAD> 


正则 表达 式 


<[tT]{iT] [tT]{1L] (eE]>.*</[tT]{iI]{tT] (iL]{eE]> 


<HEAD> 


<TITLE>Ben Forta's Homepage</TITLE> 
</HEAD> 


<[tT] [iIl[tT][1lL1[eE]>.*</[tT][iI][tT][iL][eE]> 匹配 
<TITLE> 标 签 (大写 、 小 写 或 大 小 写 泥 用 )、</TITLE> 标 签 以 及 这 两 个 
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标签 之 间 的 任何 文字 。 这 个 模式 的 效果 与 我 们 的 预期 基本 相符 ， 但 不 够 
理想 。 


为 什么 这 么 说 呢 ? 因为 只 有 页 面 标题 才 是 我 们 需要 的 ， 而 我 们 找到 
的 匹配 里 还 包含 着 <TITLE> 和 </TITLE> 标 签 。 能 不 能 只 返回 页 面 标题 的 
文字 部 分 昵 ? 


办 法 之 -- 是 使 用 子 表达 式 〈 参 见 第 7 章 )。 我 们 可 以 利用 子 表达 式 把 
被 匹配 文本 划分 为 3 个 部 分 : 开始 标签 、 标 题 文 字 、 结 束 标签 。 把 被 匹配 
文本 划分 为 多 个 部 分 之 后 ， 从 它们 当中 提取 且 只 提取 出 我 们 需要 的 东西 
就 很 容易 了 。 

可 是 ， 明 知 是 自己 并 不 真正 需要 的 东西 《比如 上 例 中 的 <TITLE> 和 
</TITLE> 标 签 )， 还 把 它们 检索 出 来 岂 不 是 毫 无 意义 。“ 先 想 办 法 把 它们 
检索 出 来 、 再 以 手动 方式 排除 它们 ”这 既 浪费 时 间 ， 又 容易 招致 不 必要 
的 后 患 。 在 遇 到 这 类 问题 的 时 候 ， 你 真正 需要 的 是 这 样 一 个 模式 ， 它 包 
含 的 匹配 本 身 并 不 返回 ， 而 是 用 于 确定 正确 的 匹配 位 置 ， 它 并 不 是 匹配 
结果 的 一 部 分 。 换 名 话说， 你 需要 进行 “前 后 查找 ””。 


属 注意 ”本章 将 对 向 前 查找 ( lookahead ) 和 向 后 查找 (lookbehind ) 
jE 和 者 进 行 讨论 .常见 的 正则 表达 式 实现 都 支持 前 者 ， 但 支持 后 者 
的 就 没 那么 多 了 。 


Java、.NET、PHP 和 Perl 都 支持 向 后 查找 (但 有 一 些 限制 )， 
JavaScript 和 和 ColdFusion 不 支持 向 后 查找 。 





9.2 ”向 前 查找 

向 前 查找 指定 了 一 个 必须 匹配 但 不 在 结果 中 返回 的 模式 。 向 前 查 
找 实际 就 是 一 个 子 表达 式 ,而且 从 格式 上 看 也 确实 如 此 。 从 语法 上 看 ， 
一 个 向 前 查找 模式 其 实 就 是 一 个 以 ?= 开头 的 子 表 达 式 ， 需 要 匹配 的 文 
本 跟 在 = 的 后 面 。 


QD 前 后 查找 中 的 前 、 后 指 模式 与 被 查找 文本 的 相对 位 置 而 言 ， 左 为 前 。 一 一 编者 注 
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提示 有些 正 则 表达 式 文档 使 用 术语 “消费 ” (consume ) 来 


表述 “匹配 和 返回 文本 ”的 含义 。 在 向 前 查找 里 ， 被 匹配 的 文 
本 不 包含 在 最 终 返 回 的 匹配 结果 里 ， 这 被 称 为 “不 消费 ”。 





我 们 来 看 一 个 例子 。 例 子 里 的 原始 文本 是 一 些 URL 地 址 ， 而 你 的 任 
务 是 把 它们 的 协议 名 部 分 提取 出 来 (为 下 一 步 处 理 做 准备 )。 下 面 就 是 这 
个 例子 : 


http://www.forta.com/ 
https://mail.forta.com/ 
ftp://ftp.forta.com/ 


正则 表达 式 


ss 


http://www.forta.com/ 
https://mail.forta.com/ 
ftp://ftp.forta.com/ 


在 上 面 列 出 的 URL 地 址 里 ， 协 议 名 与 主机 名 之 间 以 一 个 :分 隔 。 模 
式 .+ 匹配 任意 文本 《第 1 个 匹配 是 http)， 子 表达 式 (?=:) 匹 配 : 。 注 意 ， 
被 匹配 到 的 :并 没有 出 现在 最 终 的 匹配 结果 里 ; 我 们 用 ?= 向 正则 表达 式 引 
擎 表明 : 只 要 找到 :就 行 了 ， 不 要 把 它 包括 在 最 终 的 匹配 结果 里 一 一 用 术 
语 来 说 ， 就 是 “不 消费 ” 它 。 

为 了 更 好 地 理解 ?= 的 作用 ， 我 们 再 来 看 一 个 同样 的 例子 ， 但 这 次 不 
使 用 向 前 查找 元 字符 : 


http://www.forta.com/ 
https://mail.forta.com/ 
ftp://ftp.forta.com/ 


正则 表达 式 


.+(:) 
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结果 


http://www.forta.com/ 
https://mail.forta.com/ 
ftp://ftp.forta.com/ 


分 析 | 


子 表达 式 (:) 正 确 地 匹配 到 了 :并 消费 了 这 个 字符 一 一 : 出 现在 了 最 
终 的 匹配 结果 里 。 


这 两 个 例子 的 区 别 是 前 一 个 用 来 匹配 :的 模式 是 (?=: ) ， 后 一 个 用 来 
匹配 : 的 模式 是 (: ) 。 这 两 个 模式 所 匹配 的 东西 是 一 样 的 一 一 都 是 紧 跟 在 
协议 名 后 面 的 那个 :， 它 们 之 问 的 区 别 只 是 被 匹配 到 的 :字符 有 没有 出 现 
在 最 终 的 匹配 结果 里 而 已 。 在 使 用 向 前 查找 的 时 候 ， 正 则 表达 式 分 析 器 
将 问 前 查找 并 处 理 : 匹 配 , 但 不 会 把 它 包 括 在 最 终 的 搜索 结果 里 。 模 式 .+(: ) 
查找 到 并 且 匹 配 结果 包含 :， 模 式 .+(?=: ) 查找 到 但 匹配 结果 不 包含 : 。 


注意 向 前 查找 ( 和 向 后 查找 ) 匹配 本 身 其 实 是 有 返回 结果 的 ， 
只 是 这 个 结果 的 字 节 长 度 永远 是 0 而 已 。 因 此 ， 前 后 查找 操作 
有 时 也 被 称 为 零 宽度 (zero-width ) 匹配 操作 。 


提示 ”任何 一 个 子 表达 式 都 可 以 转换 为 一 个 向 前 查找 表达 式 ， 
只 要 给 它 加 上 一 个 ?= 前 组 即 可 。 在 同一 个 搜索 模式 里 可 以 使 用 
多 个 向 前 查找 表达 式 ， 它 们 可 以 出 现在 模式 里 的 任意 位 置 (而 
不 仅仅 是 出 现在 整个 模式 的 开头 一 一 就 像 你 们 在 上 面 看 到 的 
那样 )。 





9.3 向 后 查找 


正如 你 刚 看 到 的 那样 ，?= 将 向 前 查找 〈 查 找 出 现在 被 匹配 文本 之 后 
的 字符 ， 但 不 消费 那个 字符 )。 因 此 ，?= 被 称 为 向 前 查找 操作 符 。 除 了 向 
前 查找 ， 许 多 正则 表达 式 实现 还 支持 向 后 查找 ， 也 就 是 查找 出 现在 被 匹 
配 文本 之 前 的 字符 但 不 消费 它 )， 向 后 查找 操作 符 是 ?<=，。 
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提示 “分 不 清 ?=、?<= 与 其 他 ?的 话 ， 有 个 简单 的 办 法 可 以 帮 有 你 
分 辨 它们 : 有 小 于 号 的 是 向 后 查找 操作 符 一 一 你 可 以 把 这 个 小 


于 号 想像 成 一 个 箭头 ， 它 指向 文本 阅读 方向 的 后 方 ”。 





?<= 与 ?= 的 具体 使 用 方法 大 同 小 异 ; 它 必须 用 在 一 个 子 表达 式 里 , 而 
且 后 跟 要 匹配 的 文本 。 

下 面 是 一 个 例子 。 你 从 某 个 数据 库 里 搜索 出 了 一 份 产 品目 录 ， 但 你 
只 需要 把 那些 产品 的 价格 提取 出 来 : 


ABC01: $23.45 

HGG42: $5.31 

CFMX1: $899.00 
XTC99: $69.96 

Total items found: 4 


\$[0-9.]+ 


ABCO1: $23.45 

HGG42: $5.31 

CFMX1: $899.00 
XTC99: $69.96 

Total items found: 4 


\$ 匹 配 $，[6-9.1+ 匹 配 价格 。 
如 上 所 示 的 匹配 结果 符合 你 的 预期 .但 如 果 你 不 想 让 $ 出 现在 最 终 的 匹 
配 结果 里 ， 你 该 怎么 办 ? 从 这 个 模式 里 简单 地 把 $ 去 掉 能 达到 目的 吗 ? 


ABCQO1: $23.45 

HGG42: $5.31 

CFMX1: $899.00 
XTC99: $69.96 

Total items found: 4 


(D 因为 要 匹配 文本 相对 于 模式 的 方向 (对 应 “向 前 查找 ”的 “前 ”) 与 文本 阅读 方向 


下 相反, 记忆 向 后 查找 < 号 的 方向 容易 引起 误解 ,可 以 直接 将 “? <=” 读 成 “向 …… 
之 后 查找 ”。 编者 注 
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正则 表达 式 _ 


[9-9.]+ 
结果 


ABCO1: $23.45 


XTC99: $69.96 
Total items found: 4 


| 分析， 

这 显然 不 是 你 想 要 的 结果 。 你 需要 \$ 来 确定 应 该 匹配 哪些 文本 ， 你 
只 是 不 想 让 $ 出 现在 最 终 的 匹配 结果 里 而 已 。 

怎么 办 ? 好 办 ， 这 正 是 向 后 查找 可 以 大 显 身手 的 地 方 ， 如 下 所 示 : 

3 

op 

正则 表达 式 


(?<=\$) [0-9.]+ 


结果 


ABCO1: $23.45 

HGG42: $5.31 

CFMX1: $899 .00 
XTC99: $69 .96 

Total items found: 4 


分 析 


问题 迎刃而解 了 。(?<=\$) 只 匹配 $， 但 不 消费 它 ， 最 终 的 匹配 结果 
里 只 有 价格 数字 (没有 前 缀 的 $ 字 符 )。 


我 们 来 对 比 一 下 这 个 例子 的 第 一 个 和 最 后 一 个 表达 式 : \$[0-9.]+ 
匹配 一 个 $ 字 符 和 一 个 美元 金额 ，(?<=\$) [0-9.]+ 也 匹配 一 个 $ 字 符 和 
一 个 美元 金额 。 这 两 个 模式 所 查找 的 东西 是 一 样 的 ， 它 们 之 间 的 区 别 只 
体现 在 它们 的 匹配 结果 里 。 前 一 个 模式 的 匹配 结果 包含 着 $， 后 一 个 模式 
的 匹配 结果 不 包含 $ 字 符 ， 虽 然 它 必须 通过 匹配 $ 字 符 才 能 正确 地 找到 那 
些 价格 数字 。 


警告 ”向 前 查找 模式 的 长 度 是 可 变 的 , 它们 可 以 包含 .和 + 之 类 


的 元 字符 ， 所 以 它们 非常 灵活 。 


而 向 后 查找 模式 只 能 是 固定 长 度 一 一 这 是 一 条 几乎 所 有 的 正 
则 表达 式 实现 都 遵守 的 限制 





9.4 把 向 前 查找 和 向 后 查找 结合 起 来 


向 前 查找 和 向 后 查找 可 以 组 合 在 一 起 使 用 ， 就 像 下 面 这 个 例子 所 演 
示 的 那样 〈 这 个 例子 解决 了 我 们 在 本 章 刚 开始 时 提出 的 问题 ): 


<HEAD> 
<TITLE>Ben Forta's Homepage</TITLE> 
</HEAD> 


正则 表达 式 | 


(?<=<[tT][iI][tT][1IL][eE]>).*(?=</[tT][iI]l[tT][LIL][eE]>) 


结果 | 


<HEAD> 
<TITLE>Ben Forta's Homepage</TITLE> 
</HEAD> 


分 析 | 


问题 解决 了 。(?3<=<[tT] [iI][tT][1L][eE]>) 是 一 个 向 后 查找 操 
作 , 它 匹 配 (但 不 消费 ) <TITLE>; 而 (?=</ [tT][iI][tT][1L][eE]>) 
是 一 个 向 前 查找 操作 ， 它 匹配 (但 不 消费 ) </TITLE>。 最 终 返 回 的 匹配 
结果 包含 且 仅 包含 标题 文字 (用 术语 来 说 , 就 是 只 有 标题 文字 被 消费 了 )。 


提示 “为 减少 歧义 ， 在 上 面 这 个 例子 里 ， 你 应 该 对 < (需要 匹 
配 的 第 一 个 字符 ) 进行 一 下 转 义 ， 也 就 是 把 (?<=< 替 换 为 


(?<=\<。 





9.5 对 前 后 查找 取 非 


9.5 ”对 前 后 查找 取 非 


到 目前 为 止 正如 你 看 到 的 那样 ， 向 前 查找 和 向 后 查找 通常 用 来 匹配 
文本 ， 其 目的 是 为 了 确定 将 被 返回 为 匹配 结果 的 文本 的 位 置 〈 通 过 指定 
匹配 结果 的 前 后 必须 是 哪些 文本 )。 这 种 用 法 被 称 为 正 向 前 查找 (positive 
lookahead) 和 正 向 后 查找 (positive lookbehind)。 术 语 “ 正 ” 指 的 是 寻找 
匹配 的 事实 。 


前 后 查找 还 有 一 种 不 太 常见 的 用 法 叫做 负 前 后 查找 (negative 


lookaround)“。 负 向 前 查找 Cnegative lookahead) 将 向 前 查找 不 与 给 定 模 


式 相 匹 配 的 文本 ， 负 向 后 查找 (negative lookbehind) 将 向 后 查找 不 与 给 
定 模 式 相 匹配 的 文本 。 

我 们 在 第 3 章 曾 经 介绍 过 一 个 用 来 对 字符 集合 进行 取 非 处 理 的 操作 
符 ~， 但 ^ 不 能 用 来 对 前 后 查找 进行 取 非 处 理 。 这 里 必须 使 用 另外 一 种 语 
法 : 前 后 查找 必须 用 ! 来 取 非 〈 它 将 替换 掉 =)。 表 9-1 列 出 了 所 有 的 前 后 
查找 操作 符 。 


表 9-1 各 种 前 后 查找 操作 符 


操作 符 说 明 
Vr) 正身 前 查找 
(?!) 负 向 前 查找 
(=) 下 向 后 查找 
(?<}) 负 向 后 查找 


提示 “一般 来 说 ， 凡 是 支持 向 前 查找 的 正则 表达 式 实 现 都 同时 
支持 正 向 前 查找 和 负 向 前 查找 。 类 似 地 ， 凡 是 支持 向 后 查找 的 


正则 表达 式 实现 都 同时 支持 正 向 后 查找 和 人 负 向 后 查找 . 





为 了 演示 正 向 后 查找 和 负 向 后 查找 之 间 的 区 别 ， 我 们 来 看 一 个 例子 。 
下 面 是 一 段 包 含 着 一 些 数值 的 文本 ， 其 : 既 有 价格 又 有 数量 。 我 们 先 来 
查找 且 只 查找 价格 : 


QD 此 处 的 “ 负 ” 译 为 “ 取 非 ”更 好 理解 。 一 一 编者 注 
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1 paid $30 for 100 apples， 
50 oranges, and 60 pears. 
I saved $5 on this order. 


{?<=\$)\d+ 


I paid $30 for 100 apples, 
50 oranges, and 60 pears. 
I saved $5 on this order. 


这 与 我 们 刚 见 过 的 例 了 非常 相似 。\d+ 匹 配 数 值 (一 个 或 多 个 数字 字 
符 )，(?<=\$) 向 后 查找 (但 不 消费 ) 字符 $〈 这 个 字符 在 模式 里 被 转 义 
为 \$)。 这 个 模式 正确 地 匹配 到 了 两 个 用 来 表示 价格 的 数值 ， 那 些 用 来 表 
示 数 量 的 数字 没有 出 现在 最 终 的 匹配 结果 里 。 


接 下 来 ， 我 们 再 去 查找 且 只 查找 数量 : 


I paid $30 for 100 apples, 
50 oranges, and 68 pears. 
I saved $5 on this order. 


\b(?<!1\$)\d+\b 


I paid $30 for 4100 apples, 
50 oranges, and 68 pears. 
I saved $5 on this order. 


\d+ 还 是 匹配 数值 ， 但 这 次 只 匹配 数量 ， 不 匹配 价格 。 表 达 式 (?<1\$) 是 
一 个 负 向 后 查找 ， 它 使 得 最 终 的 匹配 结果 只 包含 那些 不 以 $ 开 头 的 数值 。 把 操 
作 符 ?<= 改 为 操作 符 ?<! 使 得 整个 模式 从 一 个 正 向 后 查找 变 成 了 一 个 负 向 后 
查找 。 
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细心 的 读者 可 能 已 经 注意 到 了 ， 在 上 面 这 个 例子 里 ， 我 们 还 在 那个 
负 向 后 查找 模式 里 用 \b 元 字符 定义 了 两 个 单词 边界 。 我 们 为 什么 要 那么 
做 昵 ? 你 看 过 下 面 这 个 没有 使 用 单词 边界 的 例子 里 就 明白 了 。 


I paid $30 for 100 apples, 
50 oranges, and 60 pears . 
I saved $5 on this order . 


(?<!1\$)\d+ 


I paid $30 for 1006 apples, 
50 oranges, and 60 pears. 
I saved $5 on this order. 


请 看 ， 因 为 没有 使 用 单词 边界 ，$36 里 的 6 也 出 现在 了 最 终 的 匹配 结果 里 。 
这 是 因为 那个 0 字符 的 前 一 个 字符 是 3 而 不 是 $， 它 完全 符合 模式 (?<!\$) \d+ 
的 匹配 要 求 。 把 这 个 模式 用 \b 括 起 来 从 根本 上 解决 了 这 个 问题 。 


9.6 小结 


有 了 向 后 查找 ， 我 们 就 可 以 对 最 终 的 匹配 结果 包含 且 只 包含 哪些 内 
容 做 出 更 精确 的 控制 。 前 后 查找 操作 使 我 们 可 以 利用 子 表达 式 来 指定 文 
本 区 配 操作 的 发 生 位 置 ， 并 收 到 只 匹配 不 消费 的 效果 。 正 向 前 查找 更 用 
(?=) 来 定义 ， 负 癌 前 查找 要 用 (?1) 来 定义 。 有些 正则 表达 式 实现 还 支持 
正 向 后 查找 (相应 的 操作 符 是 (?<=) ) 和 负 向 后 查找 (相应 的 操作 符 是 
(?<!) )。 


第 10 章 
典 入 条 件 





正则 表达 式 语 言 还 有 一 种 威力 强大 《但 不 经 常 被 用 到 ) 的 功能 
在 表达 式 的 内 部 嵌入 条 件 处 理 功能 。 本 章 将 对 此 做 专题 讨论 。 


10.1 为 什么 要 艇 入 条 件 


(123)456-7890 和 123-456-7890 都 是 可 接受 的 北美 电话 号 码 格 
式 ， 而 1234567890、(123) -456-7890 和 (123-456-7890) 虽然 都 包含 
着 数 日 正确 的 数字 字符 ， 但 它们 的 格式 都 不 对 。 如 果 让 你 来 编写 一 个 正 
则 表达 式 并 让 它 只 匹配 可 接受 的 格式 ， 不 匹配 其 他 格式 ， 你 会 怎么 做 ? 


这 个 问题 看 似 简单 ， 其 实 颇 有 难度 。 下 面 是 最 容易 想到 的 解决 方案 : 


123-456-7890 
(123)456-7890 
(123) -456-7890 
(123-456-7890 
1234567890 

123 456 7890 


正则 表达 式 
\(?\d{3}\)?-2\d{3}-\d{4} 


123-456-7890 
(123)456-7890 
(123) -456 -7890 
(123-456-7890 
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1234567890 
123 456 7890 


分 析 | 

\(? 匹 配 一 个 可 选 的 左 括号 一 一 请 注意 ， 这 里 必须 对 (进行 转 义 ; 
\d{3} 匹 配 前 三 位 数字 ; \)? 匹 配 一 个 可 选 的 右 括号 ，- ?匹配 一 个 可 选 的 
连 字符 ;\d{3}-\d{4} 匹 配 剩余 的 七 位 数字 《〈 中 间 用 一 个 连 字符 分 隔 )。 
原始 文本 中 的 最 后 两 行 不 与 这 个 模式 匹配 ， 但 第 3 行 和 第 4 行 与 之 匹配 一 一 
这 是 不 正确 的 , 第 3 行 的 ) 后 面 多 了 一 个 -, 第 4 行 少 了 一 个 配对 的 右 括号 )。 

把 \)?-? 替 换 为 [\] - ]? 可 以 排除 第 3 行 字符 ) 或 -只 能 出 现 一 个 ， 
不 允许 两 个 同时 出 现 )， 但 第 4 行 还 是 无 法 排除 。 正 确 的 模式 应 该 只 在 电 
话 代 码 里 有 一 个 左 括号 (的 时 候 才 去 匹配 ) 。 更 准确 地 说 ， 应 该 是 如 果 电 
话 号 码 里 有 一 个 左 括号 (， 我 们 的 模式 必须 去 匹配 ); 如果 不 是 这 样 ， 它 
就 必须 去 匹配 - 。 这 种 模式 如 果 不 使 用 条 件 处 理 根 本 无 法 编写 。 


be 
必 乞 ， 细 年 并 间 所 有 的 正则 表达 式 实现 都 云 持 条 件 处 理 


10.2 正则 表达 式 里 的 条 件 | 

正则 表达 式 里 的 条 件 要 用 ?来 定义 。 事实 上 ， 你 们 已 经 见 过 几 种 非常 
特定 的 条 件 了 : 

口 ?匹配 前 一 个 字符 或 表达 式 如 果 它 存在 的 话 。 

口 ?= 和 ?<= 匹 配 前 面 或 后 面 的 文本 一 一 如 果 它 存在 的 话 。 

嵌入 条 件 语 法 也 使 用 了 ?， 这 并 没有 什么 让 人 感到 吃惊 的 地 方 一 一 因 
为 嵌入 条 件 不 外 乎 以 下 两 种 情况 : 

口 根据 一 个 回溯 引用 来 进行 条 件 处 理 。 

口 根据 一 个 前 后 查找 来 进行 条 件 处 理 。 
10.2.1 回溯 引用 条 件 

回溯 引用 条 件 只 在 一 个 前 面 的 子 表达 式 搜索 取得 成 功 的 情况 下 才 人 允 
许 使 用 一 个 表达 式 。 听 起 来 很 费解 ， 我 们 还 是 用 一 个 例子 来 说 明 好 了 : 





Q@ MySQL 和 Java 1.4 场 不 支持 。 
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你 需要 把 … 段 文本 里 的 <IMG> 标 签 全 都 找 出 来 ; 不仅 如 此 ， 如 果 某 个 
<IMG> 标 签 是 一 个 链接 (被 括 在 <A> 和 </A> 标 签 之 间 ) 的 话 ， 你 还 要 把 整 
个 链接 标签 匹配 出 来 。 


用 来 定义 这 种 条 件 的 语法 是 ?(backreference)true-regex), 其中? 
表明 这 是 一 个 条 件 ， 括 号 里 的 backreference 是 一 个 回溯 引用 ， 
true-regex 是 一 个 只 在 backreference 存 在 时 才 会 被 执行 的 子 表达 式 。 


请 看 下 面 这 个 例子 : 
<!1-- Nav bar --> 
<TD> 


<A HREF="/home"><IMG SRC="/images/home.gif"></A> 
<IMG SRC="/images/spacer.gif"> 

<A HREF="/search"><IMG SRC="/images/search.gif"></A> 
<IMG SRC=" /images/spacer.gif"> 

<A HREF="/help"><IMG SRC="/images/help.gif"></A> 
</TD> 


正则 表达 式 
(<[Aa]\s+{“>]+>\s*)?<[Ii]l[Mm] [Gg] \s+[“>]+>(?(1)\s*</[Aa]>) 
结果 

<!-- .Nav bar --> 


<TD> 

<A HREF=" /home"><IMG SRC="/images/home.gif"></A> 
<IMG SRC="/images/spacer.gif"> 

<A HREF="/search"><IMG SRC="/images/search.gif"></A> 
<IMG SRC="/images/spacer .gif "> 


<A HREF=" /help"><IMG SRC=" /images/help.gif"></A> 
</TD> 


分 析 
这 个 模式 不 解释 是 不 容易 看 明白 的 。(<[Aa]\s+[^>]+>\s*)? 将 匹 
了 配 一 个 <A> 或 <a> 标 签 〈 以 及 <A> 或 <a> 标 签 的 任意 属性 )， 这 个 标签 可 有 
可 无 〈 央 为 这 个 子 表 达 式 的 最 后 有 -… 个 ?)。 接 下 来 ， 
<[IilfMn][Ggl\s+[^>]j+> 匹 配 一 个 <IMG> 〈 大 小 写 均 可 ) 及 其 任意 属 
性 。(?(1)\s*</[Aa]>) 是 一 个 回溯 引用 条 件 一 一 ?(1) 的 含义 是 : 如 
[99] 果 第 -- 个 回溯 引用 〈 有 具体 到 本 例 ， 就 是 <A> 标 签 ) 存在 ， 则 使 用 
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\sx</[Aa]> 继 续 进行 匹配 〈 换 名 话说， 只 有 当前 面 的 <A> 标 签 匹配 成 
功 ， 才 继续 进行 后 面 的 匹配 )。 如 果 (1) 存 在 ，\s*</[Aa]> 将 匹配 结 
束 标签 </A> 之 后 出 现 的 任意 空白 字符 。 


注意 ?(1) 检 查 第 一 个 回溯 引用 是 否 存 在 . 在 条 件 里 ， 回 溯 引 
Ss 用 编号 ( 本 例 中 的 1) 不 需要 被 转 义 。 因 此 ，?(1) 是 正确 





的 ，?(\1) 不 正确 (但 后 者 通常 也 能 工作 )。 


我 们 刚才 使 用 的 模式 只 在 给 定 条 件 得 到 满足 时 才 执 行 一 个 表达 式 。 条 件 
还 可 以 有 否则 表达 式 , 否则 表达 式 只 在 给 定 的 回溯 引用 不 存在 〈 也 就 是 条 件 
没有 得 到 满足 ) 时 才 会 被 执行 。 用 来 定义 这 种 条 件 的 语法 是 ? (backer- 
ference)true-regex|false-regex)， 这 个 语法 接受 一 个 条 件 和 两 个 将 
分 别 在 这 个 条 件 得 到 满足 和 没有 得 到 满足 时 执行 的 子 表达 式 。 


这 个 语法 提供 了 电话 号 码 问题 的 解决 方案 ， 如 下 所 示 : 


123-456-7890 
(123)456-7890 
(123) -456-7890 
(123-456-7890 
1234567890 

123 456 7890 


正则 表达 式 
(\()?\d{3}(?(1)\)|-)\d{3}-\d{4} 


结果- 


123-456-7890 
(123)456-7890 
(123) -456-7890 
(123-456-7890 
1234567890 

123 456 7890 


分 析 | 


从 结果 看 ， 这 个 模式 解决 了 问题 ， 但 它 是 如 何 解 决 问题 的 呢 ? 和 前 
面 一 样 ，(\()? 也 匹配 一 个 可 选 的 左 括号 ， 但 我 们 这 次 把 它 用 括号 括 起 
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来 得 到 了 一 个 子 表达 式 。 随 后 的 \d{3} 匹 配 一 位 数字 的 区 号 。 
(?(1)\)|-) 是 一 个 回溯 引用 条 件 ， 它 将 根据 条 件 是 否 得 到 满足 而 去 匹 
配 ) 或 -一 一 如 果 (1) 存 在 (也 就 是 找到 了 一 个 左 括号 )，\ ) 必须 被 匹配 ; 
否则 ，- 必 须 被 匹配 。 这 样 一 来 ， 只 有 配对 出 现 的 括号 才 会 被 匹配 ， 如 
果 没 有 使 用 括号 或 括号 不 配对 ， 电 话 号 码 中 的 区 号 和 其 余数 字 之 间 的 - 
分 隔 符 必 须 被 匹配 。 










提示 髓 入 了 条 件 的 模式 看 上 去 往往 非常 复杂 ， 而 这 往往 意味 
着 调试 工作 会 变 得 非常 困难 。 如 果 别 无 选择 ， 先 对 整个 模式 的 
各 组 成 部 分 分 别 进行 调试 ， 再 把 它们 拼装 到 一 起 ， 这 通常 是 一 
种 比较 好 的 办 法 。 





10.2.2 前 后 查找 条 件 


前 后 查找 条 件 只 在 一 个 向 前 查找 或 向 后 查找 操作 取得 成 功 的 情况 下 
才 允 许 一 个 表达 式 被 使 用 。 定 义 一 个 前 后 查找 条 件 的 语法 与 定义 一 个 回 
溯 引 用 条 件 的 语法 大 同 小 异 一 一 只 需 把 回溯 引用 〈 括 号 里 的 回溯 引用 编 
号 ) 替换 为 一 个 完整 的 前 后 查找 表达 式 就 行 了 。 








注意 “对 前 后 查找 操作 的 详细 讨论 见 第 9 章 ， 


作为 一 个 例子 ， 请 你 思考 一 下 怎样 匹配 美国 的 邮政 编码 (简称 ZIP 编 
码 )。 美 国 邮政 编码 有 两 种 格式 ， 一 种 是 12345 形 式 的 ZIP 格 式 ， 另 一 种 是 
12345-6789 形 式 的 ZIP+4 格 式 。 只 有 ZIP+4 格 式 才 必须 使 用 连 字符 来 分 隔 
前 5 位 和 后 4 位 数字 。 下 面 是 一 种 解决 方法 : 


11111 
22222 
33333- 
44444-4444 


正则 表达 式 


\d{5}(-\d{4})? 
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11111 
22222 
33333-. 
44444-4444 


\d{5} 低 配 前 5 位 数字 ，( - \d{4})? 匹 配 一 个 连 字 符 和 后 4 位 数字 ( 它 
们 必须 一 起 出 现 或 -- 起 不 出 现 )。 

现在 ， 请 考虑 这 样 一 个 问题 : 如 果 你 不 想 匹 配 那些 格式 不 正确 的 ZIP 
编码 ， 你 该 怎么 办 ?比如 说 ， 在 上 面 这 个 例子 里 ， 在 第 3 行 原始 文本 的 末 
尾 有 一 个 不 应 该 出 现在 那里 的 连 字 符 ， 但 这 个 号 码 还 是 出 现在 了 最 终 的 
匹配 结果 里 。 怎 样 才 能 让 这 个 格式 不 正确 的 ZIP 编 码 不 出 现在 最 终 的 匹配 
结果 里 呢 ? 

下 面 是 用 一 个 前 后 查找 条 件 来 解决 这 个 问题 的 方法 ， 虽 然 这 个 问题 
并 非 只 有 这 一 种 解决 办 法 。 


11111 
22222 
33333 - 
44444 -4444 


\d{5}(?(?=-)-\d{4}) 
结果 


11111 
22222 102 


33333- 
44444 -4444 


\d{5} 匹 配 前 5 位 数字 。 接 下 来 是 一 个 (?(?3=- ) -\d{4}) 形 式 的 向 前 
查找 条 件 。 这 个 条 件 使 用 了 ?=- 来 匹配 (但 不 消费 ) 一 个 连 字 符 ， 如 果 条 
件 得 到 满足 〈 那 个 连 字符 存在 )，- \d{4} 将 匹配 那个 连 字 符 和 随后 的 4 位 
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数字 。 这 样 一 来 ，33333- 将 被 排除 在 最 终 的 匹配 结果 之 外 〔 它 有 一 个 连 
字符 ， 所 以 满足 给 定 条 件 ， 但 那个 连 字符 的 后 面 没有 必须 出 现在 那里 的 4 
位 数字 )。 


提示 在 实际 工作 中 ， 嵌 入 了 前 后 查找 条 件 的 模式 相当 少见 ， 





这 是 因为 我 们 往往 可 以 用 更 简单 的 办 法 来 达到 同样 的 目的 。 


10.3” 小 经 


在 正则 表达 式 模式 里 可 以 嵌入 条 件 ， 只 有 当 条 件 得 到 (或 者 没有 得 
到 ) 满足 时 ， 相 应 的 表达 式 才 会 被 执行 。 这 种 条 件 可 以 是 一 个 回溯 引用 
(含义 是 检查 该 回溯 引用 是 否 存在 )， 也 可 以 是 一 个 前 后 查找 操作 。 





附录 A 
常见 应 用 软件 
和 编程 语言 中 的 
正则 表达 式 


不 同 的 正则 表达 式 实现 在 基本 的 语法 方面 大 都 是 一 致 的 ， 但 在 正则 
表达 式 的 具体 用 法 方面 往往 有 所 不 同 。 支 持 正 则 表达 式 的 编程 语言 和 应 
用 软件 各 用 各 的 调用 方法 ， 在 许多 细节 上 都 有 自己 的 一 套 方 法 。 本 附录 
将 对 比较 流行 的 应 用 软件 和 编程 语言 中 的 正则 表达 式 的 用 法 和 一 些 具 体 
的 注意 事项 进行 描述 。 







注意 ”本 附录 里 的 信息 只 是 些 为 了 帮助 你 尽快 入 门 而 准备 的 速 
查 资料 ， 具 体 的 示例 和 注意 事项 超出 了 本 书 的 讨论 范围 ， 这 方面 
的 细节 还 请 你 自行 参阅 相关 的 应 用 软件 或 编程 语言 的 文档 。 


A.1 grep 

grep 是 一 种 用 来 对 文件 或 标准 输入 文本 进行 文字 搜索 的 Unix 工 具 。 根 
据 你 具体 使 用 的 命令 选项 ，grep 支 持 基 本 、 扩 展 和 Perl 正 则 表达 式 。 

口 -E: 使 用 扩展 正则 表达 式 。 

口 -G: 使 用 基本 正则 表达 式 。 

口 -P: 使 用 Perl 正 则 表达 式 。 
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提示 “你 使 用 的 命令 选项 不 同 ，grep 工 具 的 功能 和 用 途 也 就 不 
同 .大 多 数 用 户 喜 欢 使 用 Perl 正 则 表达 式 〔 见 稍 后 的 描述 )， 因 
为 这 些 是 最 标准 的 





请 注意 以 下 事项 : 


口 在 默认 的 情况 下 ，grep 将 把 包含 着 匹配 的 各 个 文本 行 全 部 显示 出 
来 ; 如 果 你 只 想 查 看 匹配 结果 ， 请 使 用 -0 选项 。 

口 使 用 - v 选 项 将 对 整个 匹配 操作 进行 求 非 一 一 只 显示 不 匹配 的 文本 行 。 

口 使 用 -c 选 项 将 只 显示 匹配 的 总 数 而 不 是 次 匹配 的 细节 。 

口 grep 工 具 只 能 用 来 进行 搜索 操作 ， 不 能 用 来 进行 替换 操作 。 换 句 
话说 ，grep 工 具 不 支持 替换 功能 。 


A.2 JavaScript 


JavaScript 1.x 版 本 在 String 和 RegEx 对 象 的 以 下 几 个 方法 里 实现 
了 正则 表达 式 处 理 。 


口 exec: 一 个 用 来 搜索 一 个 匹配 的 RegEx 方 法 。 

DO match: 一 个 用 来 匹配 一 个 字符 串 的 String 方 法 。 

口 replace: 一 个 用 来 完成 替换 操作 的 String 方 法 。 

口 search: 一 个 用 来 测试 在 某 给 定 字 符 串 里 是 否 存在 着 一 个 匹配 的 
String 方 法 。 

口 split: 一 个 用 来 把 一 个 字符 串 拆 分 为 多 个 子 串 的 String 方 法 。 

D test: 一 个 用 来 测试 在 某 给 定 字 符 串 里 是 否 存 在 着 一 个 匹配 的 
RegEx 方 法 。 


注意 JavaScript 2 里 的 正则 表达 式 处 理 (Mozilla 和 另外 几 种 比 


较 新 的 浏览 器 可 以 支持 ) 与 JavaScript 1.x 向 后 兼容 并 提供 了 更 
多 的 功能 。 





JavaScript 对 正则 表达 式 的 支持 源 自 Perl 语 言 ， 但 需要 注意 以 下 几 个 


问 题 
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口 JavaScript 使 用 命令 行 选项 来 管理 全 局 的 区 分 大 小 写 搜索 ，g 选 项 
激活 全 局 搜索 功能 , i 选项 让 匹配 操作 不 区 分 字母 的 大 小 写 , 这 两 
个 选项 可 以 组 合 为 gi。 

口 其 他 命令 行 选项 (版 本 4 及 以 后 的 浏览 器 支持 ) 包括 : m， 文 持 多 
行 字 符 串 ; s， 支 持 单行 字符 串 ; x， 忽 略 正 则 表达 式 模式 里 的 空 
白字 符 。 

口 在 使 用 回溯 引用 的 时 候 ,$` 将 返回 被 匹配 字符 串 前 面 的 所 有 东西 ， 
$ 将 返回 被 匹配 字符 串 后 面 的 所 有 东西 ， $+ 将 返回 最 后 一 个 被 匹 
配 的 子 表 达 式 ，$& 将 返回 被 匹配 到 的 所 有 东西 。 

DO JavaScript 提 供 了 一 个 名 为 RegExp 的 全 局 对 象 ， 在 执行 完 … 个 
正则 表达 式 之 后 ， 你 们 可 以 通过 这 个 对 象 获得 与 这 次 执行 有 关 
的 信息 。 

口 JavaScript 不 支持 POSIX 字 符 类 。 

口 JavaScript 不 支持 \A 和 \Z。 


A.3 Macromedia ColdFusion 
ColdFusion 通 过 以 下 4 个 函数 提供 正则 表达 式 支 持 。 
口 REFind(): 执行 搜索 。 
口 REFindNoCase(): 执行 不 区 分 字母 大 小 写 的 搜索 。 
口 REReplace(): 执行 替换 。 
口 REReplaceNoCase(): 执行 不 区 分 字母 大 小 写 的 替换 。 


人 注意 ColdFusion 还 支持 在 <CFINPUT> 标 签 里 使 用 正则 表达 
人 = 季 ” 式 进行 输入 检查 的 做 法 .不 过 ,这 个 标签 本 身 并 不 对 正则 表达 
式 进 行 处 理 , 它 只 负责 把 正则 表达 式 传 递 到 最 终生 成 的 客户 端 


JavaScript 代 码 里 ， 对 正则 表达 式 的 处 理由 JavaScript 负 责 完成 。 
因此 ， 出 现在 <CFINPUT> 标 签 里 的 正则 表达 式 必 须 遵 守 
JavaScript 的 有 关 正 则 和 注意 事项 。 





ColdFusion 支 持 与 Perl 语 言 兼 容 的 正则 表达 式 ， 但 需要 注意 以 下 几 个 
问题 : 
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口 .总 是 匹配 换行 符 。 

口 在 使 用 回溯 引用 的 时 候 ， 必 须 使 用 \n 代 替 $n 来 引用 回溯 引用 变 
量 。ColdFusion 将 自动 地 把 替换 字符 串 里 的 所 有 $ 字 符 解 释 为 它们 

口 你 不 必 对 替换 字符 串 里 的 反 斜 线 字符 进行 转 义 。ColdFusion 将 自 
动 地 把 它们 解释 为 它们 的 转 义 含义 , 但 大 小 写 转换 序列 或 它们 的 
转 义 版 本 (例如 \u 或 \\u) 属于 例外 。 

口 嵌入 限定 符 〈(?i)、 等 ) 总 是 影响 整个 表达 式 ， 即 使 它们 只 是 出 
现在 某 个 子 表达 式 的 内 部 。 

口 ColdFusion 不 支持 在 替换 字符 串 里 使 用 \Q、\uAN\L 或 \1\U。 

口 ColdFusion 不 支持 向 后 查找 〈?<= 和 ?<! )。 

口 ColdFusion 不 支持 条 件 处 理 。 

口 ColdFusion 不 支持 \x、\N、\p 和 \C。 


注意 在 这 本 书 里 ， 我 们 提 到 ColdFusion 的 所 有 地 方 都 指 的 是 
ColdFusion MX 或 更 高 版 本 。 这 些 版 本 里 的 正则 表达 式 引 擎 都 


经 过 了 全 面 的 改写 ， 与 早期 版 本 里 的 大 不 一 样 ; 换 名 话说， 本 
书 没有 对 早期 ColdFusion 版 本 对 正则 表达 式 的 支持 进行 讨论 。 





A.4 Macromedia Dreamweaver 


Macromedia Dreamweaver 支 持 在 “搜索 和 替换 ”操作 中 使 用 正则 表 
达 式 。 
要 想 使 用 正则 表达 式 ， 请 按 以 下 步骤 操作 。 
口 在 “Edit (编辑 )” 菜 单 里 选择 “Find and Replace( 查 找 和 替换 )”， 
再 选中 “Use Regular Expression 〈 使 用 正则 表达 式 )” 选 择 框 。 
请 注意 以 下 事项 。 
口 在 替换 模式 里 ， 必 须 使 用 $ 语 法 (例如 $1) 来 引用 一 个 回溯 引用 。 


但 如 果 是 在 同一 个 模式 里 ， 则 必须 使 用 \ 语 法 (例如 \1) 来 引用 
一 个 回溯 引用 。 
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口 正则 表达 式 模式 可 以 保存 起 来 供 以 后 再 次 使 用 。 


A.5 Macromedia HomeSite (和 ColdFusion Studio) 


Macromedia HomeSite (包括 ColdFusion Studio) 支持 在 “搜索 和 替 


换 ” 操 作 中 使 用 正则 表达 式 。 

要 想 使 用 正则 表达 式 ， 请 按 以 下 步骤 操作 ; 

口 在 “Search (搜索 )” 菜 单 里 选择 “Extended Find (扩展 查找 )” 或 
“Extended Repalce (扩展 替换 )”。 

口 选中 “Regular Expression (正则 表达 式 )” 选 择 框 。 

请 注意 以 下 事项 : 

口 HomeSite 正 则 表达 式 支持 与 ColdFusion 里 的 正则 表达 式 基 本 一 
致 。 

口 HomeSite 不 支持 POSIX 字 符 类 。 

口 HomeSite 支 持 回 溯 引 用 ， 但 使 用 的 是 \1 语 法 。 

口 .总 是 匹配 换行 符 。 

口 正则 表达 式 模式 可 以 保存 起 来 供 以 后 再 次 使 用 。 


A.6 Microsoft ASP 


所 有 的 ASP 脚 本 语言 都 支持 正则 表达 式 。 正 则 表达 式 支持 是 通过 一 
个 名 为 RegExp 的 对 象 提供 的 ， 这 个 对 象 包含 着 以 下 几 个 方法 。 

口 Excute(): 执行 一 个 正则 表达 式 搜索 操作 。 

口 Replace(): 执行 一 个 “搜索 和 替换 ”操作 。 

口 Test(): 检查 一 个 字符 串 是 否 与 一 个 给 定 的 正则 表达 式 相 匹 配 。 

ASP 正 则 表达 式 支 持 还 有 一 些 局 限 性 (ASPNET 有 着 非常 高 级 和 复杂 
的 正则 表达 式 支 持 )。 下 面 是 一 些 你 们 必须 注意 的 事项 。 

口 在 执行 上 述 任何 一 个 方法 之 前 , 必须 先 创建 并 填充 一 个 RegExp 对 

象 的 实例 。 
口 正则 表达 式 被 存放 在 RegExp .Pattern 里 。 
口 支持 全 局 限定 符 和 大 小 写 限 定 符 。 前 者 是 一 个 存放 在 RegExp . 
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Global 里 的 布尔 值 ， 后 者 是 一 个 存放 在 RegExp.IgnoreCase 里 
的 布尔 值 。 

口 Excute( ) 方 法 将 返回 一 个 Match 对 象 , 通过 这 个 对 象 可 以 访问 到 
所 有 的 匹配 。 

口 不 支持 向 前 查找 (?= 和 ?1!1) 和 向 后 查找 (?<= 和 ?<! )。 


A.7 Microsoft ASP.NET 


ASPNET 里 的 正则 表达 式 支持 由 .NET Framework 提 供 。 参 阅 后 面 的 
A.9 节 。 


A.8 Microsoft C# 
C# 里 的 正则 表达 式 支持 由 NET Framework 提 供 。 人 参阅 A.9 节 。 


A.9 Microsoft .NET 


.NET Framework 通 过 它 的 基本 类 库 提 供 了 强大 和 灵活 的 正则 表达 式 
支持 ， 这 些 支持 在 所 有 的 .NET 语 言 和 工具 (包括 ASPNET、C# 和 和 Visual 
Studio .NET 在 内 ) 里 都 可 以 使 用 。 


.NET 里 的 正则 表达 式 支 持 是 通过 Regex 类 (以 及 其 他 一 些 辅 助 类 ) 
提供 的 。Regex 类 有 以 下 一 些 方 法 。 


口 IsMatch(): 测 试 在 某 个 给 定 的 字符 串 里 是 否 可 以 找到 一 个 匹配 。 

口 Match ( ) : 搜索 一 个 单个 的 匹配 ， 该 匹配 将 被 为 一 个 Match 对 象 。 

口 Matches(): 搜索 所 有 的 匹配 ， 它 们 将 被 返回 为 一 个 Match- 
Collection 对 象 。 

口 Replace(): 在 一 个 给 定 的 字符 串 上 进行 替换 操作 。 

口 Split(): 把 一 个 字符 串 拆 分 为 一 个 字符 串 数组 。 


利用 各 种 包装 器 函数 ， 在 无 须 创 建 和 使 用 一 个 Regex 类 的 情况 下 也 
可 以 执行 “个 正则 表达 式 。 


口 Regex.IsMatch(): 在 功能 上 等 价 于 IsMatch () 方 法 。 
口 Regex.Match(): 在 功能 上 等 价 于 Match ( ) 方 法 。 
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口 Regex.Matches(): 在 功能 上 等 价 于 Matchex () 方 法 。 
口 Regex.Replace(): 在 功能 上 等 价 于 Replace() 方 法 。 
口 Regex.Split(): 在 功能 上 等 价 于 Split() 方 法 。 


下 面 是 一 些 与 .NET 正 则 表达 式 支 持 有 关 的 重要 注意 事项 。 


口 要 想 使 用 正则 表达 式 ， 必 须 用 “ Imports System.Text.Regular- 
Expressions” 语 句 导入 正则 表达 式 对 象 。 

口 如 果 只 是 临时 需要 使 用 正则 表达 式 ， 上 述 包 装 器 函数 是 理想 的 选 
择 。 

口 正则 表达 式 的 选项 需要 使 用 Regex.0ptions 属 性 给 出 一 一 它 是 
一 个 Regex0ption 枚 举 集合 , 你 可 以 对 这 个 枚 举 集合 的 各 有 关 成 
员 如 IgnoreCase、Multiline、Singleline 等 进行 设置 。 

口 .NET 支 持 命 名 捕获 ， 即 允许 对 子 表达 式 进行 命名 (这 样 就 可 以 使 
用 名 字 而 不 是 编号 来 引用 它们 了 )。 命 名 一 个 子 表达 式 的 语法 
是 ?<name>， 引 用 这 个 回溯 引用 的 语法 是 \k<name>， 在 一 个 替 
换 模式 里 引用 它 的 语法 是 ${name}。 

口 在 使 用 回溯 引用 的 时 候 ，$`( 反 引号 ) 将 返回 被 匹配 字符 串 前 面 
的 所 有 东西 ，$'( 单 引号 ) 将 返回 被 匹配 字符 串 后 面 的 所 有 东西 ， 
$+ 将 返回 最 后 一 个 被 匹配 的 子 表达 式 ，$_ 将 返回 整个 原始 字符 
串 ，$& 将 返回 整个 被 匹配 字符 串 。 

口 .NET Framework 不 支持 使 用 \E、\1、\L、\u 和 \U 进 行 大 小 写 转换 。 

口 .NET Framework 不 支持 POSIX 字 符 类 。 


A.10 _ Microsoft Visual Studio .NET 


Visual Studio .NET 里 的 正则 表达 式 支 持 由 .NET Framework 提 供 。 参 
阅 前 面 的 A.9 节 。 
要 想 使 用 正则 表达 式 ， 请 按 以 下 步骤 操作 : 
口 在 “Edit” 菜 单 里 选择 “Find and Replace”。 
口 选择 “Find”“Replace”、“Find in Files( 在 文件 里 查找 )” 或 “Replace 
in Files《〈 在 文件 里 替换 )”。 
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打开 “Use( 使 用 )” 下 拉 框 , 从 下 拉 清 单 里 选择 “Regular expressions”。 


请 注意 以 下 事项 : 

口 使 用 e 代 替 *?。 

口 使 用 # 代 替 +?。 

口 使 用 ^n 代 替 {fn}。 

口 在 替换 操作 里 ， 可 以 用 \(w，n) 语 法 〈 其 中 的 w 是 宽度 ，n 是 一 个 
回溯 引用 编号 ) 来 左 对 齐 一 个 回溯 引用 ， 右 对 齐 一 个 回 渊 引用 的 
语法 是 \(-w，n) 。 

口 Visual Studio .NET 使 用 以 下 特殊 元 字符 和 符号 来 表示 常用 的 字符 
集合 : 


:a [a-zA-Z0-9] 

© [a-ZA-Z] 

:d \d 

:h [a-fA-FO-9] 十 六 进 制 数 字 ) 

:1 [a-zA-Z_$][a-zA-Z_0-9$]*( 合 法 的 .NET 标 识 符 ) 
:q 一 个 括 在 引号 里 的 字符 串 

:WwW [a-zZA-Z]+ 


:Z \d+ 
口 \n 是 一 个 与 平台 无 关 的 换行 符 。 在 替换 操作 里 , 它 将 插入 一 个 新 行 。 
口 支持 以 下 几 种 特殊 的 字母 匹配 字符 : 
:Lu 匹配 任意 大 写字 母 
:L1 匹配 任意 小 写字 母 
:Lt 匹配 单词 的 标题 形式 〈 首 字母 是 大 写 的 单词 ) 
:Lm 匹配 任意 标点 符号 
口 支持 以 下 几 种 特殊 的 数字 匹配 字符 : 
:Nd [0-9]+〈 士 进 制 数字 ) 
:N1 罗马 数字 
口 支持 以 下 几 种 特殊 的 标点 符号 此 配 字符 : 
:Ps 配对 标点 符号 的 开始 符号 〈 左 括号 、 左 引号 ， 等 等 ) 
:Pe 配对 标点 符号 的 结束 符号 〈 右 括号 、 右 引号 ， 等 等 ) 
:Pi 双 引 号 
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:Pf 单 引 号 
:Pd 短 划 线 〈 连 字符 ) 
:Pc 下 划 线 


:Po 其 他 标点 符号 
口 支持 以 下 几 种 特殊 的 符号 匹配 字符 ; 
:Sm 数学 符号 
:Sc 货币 符号 
:SKk 重音 和 方言 符号 
:So 其 他 符号 
口 还 有 一 些 字 符 在 .NET Framework 里 也 有 特殊 含义 ， 详 细 情 况 参 阅 
Visual Studio .NET 文 档 。 


A.11 _ MySQL 


MySQL 是 一 个 流行 的 开放 源 代码 数据 库 软 件 .MySQL 率先 提供 了 上 下 
则 表达 式 支持 作为 一 种 数据 库 搜 索 手 段 ， 这 一 点 我 们 在 其 他 数据 库 系统 
里 还 没有 见 过 。 


MySQL 对 正则 表达 式 的 支持 体现 在 允许 在 WHERE 子 句 里 使 用 如 下 格 
式 的 表达 式 : 


REGEXP "expression" 


注意 下 面 是 一 条 使 用 了 正则 表达 式 的 MySQL 语 名 的 完整 语法 : 





SELECT * FROM table WHERE REGEXP "pattern" 


MySQL 正 则 表达 式 支 持 很 有 用 ， 功 能 也 很 强大 ， 但 它 还 算 不 上 是 一 
个 完备 的 正则 表达 式 实 现 。 
口 只 提供 了 搜索 支持 ， 不 支持 使 用 正则 表达 式 进 行 替换 操作 。 
口 在 默认 的 情况 下 ， 正 则 表达 式 搜 索 不 区 分 字母 的 大 小 写 。 如 果 需 
要 区 分 字母 的 大 小 写 ， 必 须 再 增加 一 个 BINARY 关 键 字 《〈 放 在 
REGEXP 和 模式 之 间 )。 
口 用 [[:<:]] 来 匹配 一 个 单词 的 开头 ， 用 [ [ :>: ] ] 来 匹配 一 个 单词 
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的 结束 。 
口 不 支持 癌 前 预测 。 
口 不 支持 嵌入 条 件 。 
口 不 支持 八进制 字符 搜索 。 
口 不 支持 \a、\b、\e、\f 和 \v。 
口 不 支持 回 漳 引 用 。 


A.12 Perl 


Perl 可 以 说 是 各 种 正则 表达 式 实现 的 “祖宗 ”， 其 他 各 种 实现 几乎 都 
与 Perl 相 兼容 。 

正则 表达 式 支 持 是 Perl 的 核心 组 件 之 一 。 如 果 需 要 在 Perl 脚 本 里 使 用 
正则 表达 式 ， 只 要 像 下面 这 样 给 出 一 个 操作 和 相应 的 模式 即 可 。 


Dm/pattern/ 匹配 给 定 的 模式 。 

Ds/ pattern/pattern/ 执行 一 个 替换 操作 。 
Dqr/pattern/ 返回 一 个 Regex 对 象 供 今后 使 用 。 
口 split() 把 一 个 字符 串 拆 分 为 子 字符 串 。 


下 面 是 一 些 与 Perl 正 则 表达 式 有 关 的 注意 事项 。 

口 允许 把 限定 符 放 在 模式 的 后 面 。\i 用 来 表明 在 搜索 时 不 区 分 字母 
的 大 小 写 ; \g 用 来 表明 进行 全 局 搜索 〈 把 所 有 的 匹配 都 找 出 来 )。 

口 在 使 用 “回溯 引用 ”的 时 候 ，$ ` 将 返回 被 匹配 字符 串 前 面 的 所 有 
东西 ，$ 将 返回 被 匹配 字符 串 后 面 的 所 有 东西 ，$+ 将 返回 最 后 一 
个 被 匹配 的 子 表达 式 ，$& 将 返回 整个 被 匹配 字符 串 。 

A.13 PHP 
PHP 通 过 它 的 PCRE 组 件 提 供 了 与 Perl 相 兼容 的 正则 表达 式 支持 。 










注意 “从 PHP 4.2.0 版 本 开始 ，PCRE 组 件 将 自动 安装 。PHP 早 
期 版 本 的 用 户 需要 自行 编译 PHP pcre-regex 软 件 包 才 能 启用 正 
则 表达 式 支持 。 


SE 
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下 面 是 PCRE 组 件 提供 的 一 些 正 则 表达 式 函 数 。 


口 preg_grep(): 进行 一 次 搜索 ， 匹 配 结果 将 作为 数组 返回 。 

Opreg_match(): 进行 一 次 正则 表达 式 搜索 ， 返 回 第 一 个 匹配 。 

口 preg_match_all(): 进行 一 次 正则 表达 式 搜 索 ， 返 回 所 有 的 匹 
配 。 

口 preg_quote(): 这 个 函数 的 输入 参数 是 一 个 模式 ， 返 回 值 是 该 
模式 的 转 义 版 本 。 

口 preg_replace(): 进行 一 次 “搜索 并 替换 ”操作 。 

口 preg_replace-callback(): 进行 一 次 “搜索 并 替换 ”操作 ， 
但 使 用 一 个 回调 (callback〉 函数 来 完成 实际 替换 动作 。 

口 preg_split(): 把 一 个 字符 串 拆 分 为 子 字符 串 。 

请 注意 以 下 事项 。 

口 在 默认 的 情况 下 ， 匹 配 操 作 不 区 分 字母 的 大 小 写 。 如 果 不 想 区 分 
字母 的 大 小 写 ， 必 须 使 用 i 限定 符 。 

口 在 默认 的 情况 下 ， 匹 配 操作 仅 限 于 单行 字符 串 。 如 果 需 要 匹配 多 
行 字符 串 ， 必 须 使 用 m 限 定 符 。 

口 preg_replace()、preg_replace_callback() 和 preg_split () 
函数 都 支持 一 个 可 选 的 参数 ， 该 参数 用 来 给 出 一 个 上 限 值 一 一 对 
字符 串 进行 替换 或 拆 分 的 最 大 次 数 。 [5 

口 preg_grep() 和 preg_replace calliback() 是 从 PHP 4 才 开 始 
有 的 ， 其 他 函数 都 是 从 PHP 3 开始 就 被 支持 的 。 

口 在 PHP 4.0.4 和 更 高 版 本 里 ， 回 溯 引 用 可 以 用 Perl 语 言 的 $ 语 法 《〈 例 
如 $1) 来 引用 ;在 较 早 的 版 本 里 必须 用 \\ 来 代替 $。 

口 不 支持 \1、\u、\L、\U、\Q 和 \v。 


A.14 Sun Java 


Java 对 正则 表达 式 的 支持 是 从 1.4 版 本 开始 的 ， 此 前 的 JRE (Java 
Runtime Environment，Java 运 行 环 境 ) 版 本 不 支持 正则 表达 式 。 
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护 ， 警告 版 本 低 于 1.4 的 JRE 现 在 仍 被 广泛 地 使 用 着 。 如 果 你 打算 
部 署 一 个 使 用 了 正则 表达 式 的 Java 应 用 程序 ， 千 万 不 要 忘记 检 


注意 ”Sun 公司 花 了 很 长 的 时 间 才 在 Java 里 实现 了 正则 表达 式 
支持 ， 而 不 少 软件 团队 在 几 年 前 就 开发 出 了 各 种 非 官方 的 正则 
表达 式 实 现 。 因 为 篇 幅 的 限制 ， 本 书 没 能 对 那些 非 官 方 的 Java 
正则 表达 式 实 现 进行 介绍 ; 以 下 注意 事项 只 适用 于 由 Sun 公 司 
正式 发 布 的 Java 正 则 表达 式 支持 。 





Java 语 言 中 的 正则 表达 式 匹 配 功 能 主要 是 通过 java.util.regex.matcher 
类 和 以 下 这 些 方 法 实现 的 。 

口 find(): 在 一 个 字符 串 里 寻找 一 个 给 定 模 式 的 匹配 。 

口 lookingAt(): 用 一 个 给 定 的 模式 去 尝试 匹配 一 个 字符 串 的 开头 。 

口 matches (): 用 一 个 给 定 的 模式 去 尝试 匹配 一 个 完整 的 字符 串 。 

口 replaceAll(): 进行 蔡 换 操作 ， 对 所 有 的 匹配 都 进行 奉 换 。 

口 replaceFirst(): 进行 替换 操作 ， 只 对 第 一 个 匹配 进行 替换 。 


matcher 类 还 提供 了 几 个 能 够 让 程序 员 对 特定 操作 做 出 更 细致 调控 
的 方法 。 此 外 ，java.util.regex.pattern 类 也 提供 了 几 个 简单 易 用 
的 包装 器 方法 。 

口 compile(): 把 一 个 正则 表达 式 编 译 成 一 个 模式 。 

口 flags(): 返回 某 给 定 模式 的 匹配 标志 。 

口 matches(): 在 功能 上 等 价 于 刚才 介绍 的 matches ( ) 方 法 。 

口 pattern(): 把 一 个 模式 还 原 为 一 个 正则 表达 式 。 

口 split(): 把 一 个 字符 串 拆 分 为 子 字符 串 。 


Sun 公 司 发 布 的 Java 正 则 表达 式 支 持 与 Perl 语 言 基 本 兼容 ， 但 要 注意 

以 下 几 点 。 
口 要 想 使 用 正则 表达 式 ， 必 须 先 用 import java.util.regex.* 
语句 导入 正则 表达 式 组 件 〈 这 条 语句 将 导入 一 个 完整 的 软件 包 。 
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如 果 你 只 需要 用 到 其 中 的 一 部 分 功能 ， 请 用 相应 的 软件 包 名 字 替 
换 掉 这 条 语句 里 的 * )。 

口 不 支持 葡 入 条 件 。 

口 不 支持 使 用 \E、\141、\L、\u 和 \U 进 行 宁 母 大 小 写 转换 。 

口 不 支持 使 用 \b 匹 配 退 格 符 。 

口 不 支持 \z。 


v 必 


J 
4 
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本 附录 收集 了 一 些 非常 实用 的 正则 表达 式 并 对 它们 分 别 做 了 详细 的 
解释 。 这 些 正 则 表达 式 所 涉及 的 问题 都 是 大 家 在 实际 工作 中 经 常会 遇 到 
的 。 我 们 编写 这 个 附录 的 目的 有 两 个 : 一 是 通过 解决 这 些 实际 问题 对 全 
书 内 容 做 一 个 总 结 ， 二 是 向 大 家 提供 一 些 现成 的 模式 以 帮助 大 家 节省 这 
方面 的 时 间 和 精力 。 


” 注意 ”本 附录 里 的 示例 不 一 定 是 相关 问题 的 终极 答案 。 事 实 

人 := 和 上， 正如 我 们 在 书 中 反复 提 到 的 那样 ， 与 正则 表达 式 有 关 的 问 
题 很 少 会 有 一 个 终极 的 答案 更 常见 的 情况 是 同时 存在 多 种 答 

案 一 一 它们 没有 绝对 的 对 错 之 分 , 它们 之 间 的 区 别 只 体现 在 你 

希望 你 的 匹配 操作 严格 到 什么 程度 或 者 说 你 对 匹配 误差 容忍 


到 什么 程度 。 在 构造 一 个 正则 表达 式 模式 的 时 候 ， 我 们 不 仅 要 
考虑 到 匹配 结果 的 准确 性 ， 还 必须 考虑 到 它 的 执行 效率 ; 而 这 
两 个 因素 往往 难以 两 全 。 有 了 这 样 的 认识 ， 相 信 大 家 能 够 根据 
你 们 的 具体 情况 选用 这 里 给 出 的 模式 并 在 必要 时 对 它们 做 出 
进一步 改进 。 
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B.1 北美 电话 号 码 ” 

North 4American Numbering Plan (北美 编号 方案 ) 对 北美 地 区 的 电话 
号 码 格式 做 出 了 定义 。 根 据 这 一 方案 ， 北 美 地 区 《美国 、 加 拿 大 、 加 勤 
比 海地 区 大 部 以 及 其 他 几 个 地 区 ) 的 电话 号 码 由 一 个 3 位 数 的 区 号 和 一 个 
7 位 数 的 号 码 构成 (这 7 位 数字 又 分 成 一 个 3 位 数 的 局 号 和 一 个 4 位 数 的 线 
路 号 , 局 号 和 线路 号 之 间 用 连 字符 分 隔 )。 每 位 电话 号 码 可 以 是 任意 数字 ， 
但 区 号 和 局 号 的 第 一 位 数字 不 能 是 0 或 1。 在 书写 电话 号 码 的 时 候 ， 人 们 
往往 把 区 号 放 在 括号 里 ， 而 且 还 往往 会 在 区 号 与 实际 电话 号 码 之 间 加 上 
一 个 连 字 符 来 分 隔 它们 。 匹配 (555) 55$-5555〈 右 括号 的 后 面 有 一 个 空格 ) 
或 (555)555-5555 或 555-555-5555 其 中 之 一 -很 简单 ,但 要 想 编写 一 个 能 够 同 
时 匹配 这 些 电话 号 码 的 模式 就 不 那么 容易 了。 


J. Doe: 248-555-1234 
B. Smith: (313) 555-1234 
A. Lee: (810)555-1234 


\{?{2-9]\d\d\)?[ -]?[2-9]\d\d-\d{4} 


J. Doe: 248-555-1234 
B. Smith: (313) 555-1234 
A. Lee: (810)555-1234 


| 

这 个 模式 的 开头 是 样子 很 怪 的 \(?, . 它 负责 匹配 用 来 括 住 区 号 的 括 
号 一 一 这 对 括 与 是 可 选 的 : \ (匹配 (字符 , ?表示 匹配 (的 零 次 或 一 次 出 现 。 
接 下 来 的 [2-9] \d\d 负 责 匹 配 一 个 3 位 数 的 区 号 《第 1 位 数字 只 能 是 2 到 


Q 中 国 固 定 电话 号 码 
我 国 的 固定 电话 号 码 的 规律 是 ， 最 开始 的 位 一 定 是 0， 表 示 长 途 ， 接 着 是 两 位 、 二 
位 或 者 四 位 数字 组 成 的 区 号 ， 然 后 是 7 位 或 者 8 位 的 电话 号 码 ， 其 中 首位 不 为 1 (1 用 
于 特殊 用 途 )。 而 国内 习惯 的 电话 格式 有 : 029 8845 7890, 029 88457890, (029) 8845 
7890，(029) 88457890，029-8845 7890，029-88457890，029-8845-7890。 对 应 的 正 
则 表达 式 可 以 写 为 :\(?8[1-9]\d{1,3}\)?[-]?[2-9]\d{2,3}[-]?\d{4}。 一 一 编者 注 
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9)。\)? 匹 配 一 个 可 选 的 右 括 号 ，[ - ]? 上 配 一 个 空格 或 连 字符 一 一 这 个 
字符 也 是 可 选 的 。[2-9]\d\d-\d{f{4} 匹 配 电 话 号 码 的 剩余 部 分 : 一 个 3 
位 数 的 局 号 (第 1 位 数字 只 能 是 2 到 9)、 一 个 连 字符 和 最 后 4 位 数字 。 


只 须 稍 做 修改 ， 这 个 模式 就 可 以 用 来 匹配 北美 电话 号 码 的 其 他 格式 。 
比如 像 555 .555 .5555 这 样 的 号 码 。 


J. Doe: 248-555-1234 

B. Smith: (313) 555-1234 
A. Lee: (810)555-1234 
M. Jones: 734.555.9999 


正则 表达 式 
[\(.]?[2-9]\d\d[\).]?[ -1?[2-9]\d\d[-.]\d{4} 


EE 


J. Doe: 248-555-1234 

B. Smith: (313)} 555-1234 
A. Lee: (819)555-1234 
M. Jones: 734.555.9999 


这 个 模式 的 开头 部 分 使 用 了 字符 集合 [\(.]? 来 匹配 一 个 (或 . 字 
符 一 一 它们 都 是 可 选 的 。 类 似 地 ，[\) .]? 匹 配 一 个 ) 或 .字符 一 一 它们 也 
都 是 可 选 的 ，[ - .] 匹 配 一 个 -或 .字符 。 只 要 把 这 两 个 例子 看 明白 了 ， 你 
就 可 以 轻而易举 地 把 其 他 电话 号 码 格式 也 添加 到 你 的 模式 里 。 


B.2 美国 邮政 编码 


美国 于 1963 年 开始 使 用 邮政 编码 (简称 ZP 编 码 ，ZIP 是 Zone 
Improvement Plan 的 首 字母 缩写 )。 美 国 目前 有 40 000 多 个 ZIP 编 码 ， 它 们 
全 都 由 数字 构成 (第 1 位 数字 代表 从 美国 东部 到 西部 的 一 个 地 域 ，0 代 表 


@ 中 国 邮 政 编码 . 
我 国 邮政 编码 的 规则 是 ， 前 两 位 表示 省 、 市 、 自 治 区 ， 第 三 位 代表 邮 区 ， 第 四 位 代 
表 县 、 市 ， 最 后 两 位 代表 投递 邮局 。 共 6 位 数字 ， 其 中 第 二 位 不 为 8〈 港 澳 前 两 位 为 
99， 其 余 省 市 为 0-7)。 对 应 的 正则 表达 式 可 以 写 为 : \d(9|[90-7])\d{4}。 一 一 编者 注 
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东海 岸 地 区 ，9 代 表 西 海岸 地 区 )。 在 1983 年 ， 美 国 邮 政 总 局 开始 使 用 扩 
展 的 ZIP 编 码 ， 简 称 ZZP+4 编 码 。 新 增加 的 4 位 数字 对 信件 投 送 区 域 做 了 更 
细致 的 划分 ( 细 化 到 某 个 特定 的 城市 街区 或 某 幢 特定 的 建筑 物 )， 这 大 大 
提高 了 信件 的 投 送 效 率 和 准确 性 。 不 过 ，ZIP+4 编 码 的 使 用 是 可 选 的 ， 所 
以 对 ZIP 编 码 进 行 检查 通常 必须 同时 照顾 到 5 位 数字 的 ZIP 编 码 和 9 位 数字 
的 ZIP+4 编 码 〈ZIP+4 编 码 中 的 后 4 位 数字 与 前 $ 位 数字 之 间 要 用 一 个 连 字 
符 隔 开 )。 

E23 


999 1st Avenue, Bigtown, NY, 11222 
123 High Street, Any City, MI 48034-1234 


正则 表达 式 
\d{5}(-\d{4})? 
结果 


999 1st Avenue, Bigtown, NY, 11222 
123 High Street, Any City, MI 48034-1234 


分 析 | 

\d{5} 匹 配 任意 5 位 数字 ，(-\d{4})? 匹 配 一 个 连 字 符 和 后 4 位 数 
字 。 因 为 后 4 位 数字 是 可 选 的 ， 所 以 要 把 -\d{4} 用 括号 括 起 来 (这 使 它 
成 为 了 一 个 子 表 达 式 ),， 再 用 一 个 ?来 表明 这 个 子 表 达 式 最 多 只 允许 出 现 
一 


B.3 加拿大 邮政 编码 


加 拿 大 邮政 编码 由 6 个 交替 出 现 的 字母 和 数字 字符 构成 。 每 个 编码 分 
成 两 部 分 : 前 3 个 字符 用 来 给 出 FSA 代 码 (forward sortation area， 地 区 代 
码 )， 后 3 个 字符 用 来 给 出 LDU 代 码 (local delivery unit， 街 道 代 码 )。FSA 
代码 的 第 一 个 字符 用 来 表明 省 、 市 或 地 区 (这 个 字符 有 18 种 合法 的 选择 ; 
比如 A 代表 纽 芬兰 地 区 ; B 代 表 新 斯 科 侈 地 区 ; K、L、N 和 P 代 表 安 大 略 省 ; 
M 代 表 多 伦 多 市 ,等 等 ),， 而 我 们 的 模式 应 该 确保 这 第 一 个 字符 是 合法 的 。 
在 写 出 一 个 加 拿 大 邮政 编码 的 时 候 ，FSA 代 码 和 LDU 代 码 之 间 通 常 要 用 
一 个 空格 隔 开 。 


[= 
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123 4th Street，Toronto，oOntario，M1A 1A1 
567 8th Avenue，Montreal，Quebec，H92Z 929 


[ABCEGHJKLMNPRSTVXY]\d[A-Z] \d[A-Z]\d 


123 4th Street, Toronto, Ontario, MIiA 1A1 
567 8th Avenue，Montreal，Quebec，H9Z 929 


[ABCEGHJKLMNPRSTVXY] 匹配 那 18 个 合法 字符 中 的 任何 一 个 ， 
\d[A-Z] 匹 配 一 个 数字 和 一 个 紧 随 其 后 的 任意 字母 ; 它们 合 起 来 将 匹配 
一 个 合法 的 FSA 代 码 。\d[A-Z]\d 匹 配 LDU 人 代码， 任意 两 个 数字 字符 夹 
着 任意 一 个 字母 。 










大 将 注意 加 拿 大 邮政 编码 不 要 求 必须 以 大 写 形式 写 出 ， 所 以 在 使 
3 他 用 上 面 这 个 正则 表达 式 进行 匹配 时 一 般 用 不 着 区 分 字母 的 大 
本 


B.4 英国 邮政 编码 


英国 邮政 编码 由 5 个 、6 个 或 7 个 字符 构成 ， 这些 编码 是 由 英国 皇家 邮 
政局 定义 的 ,英国 邮政 编码 由 两 部 分 构成 :代表 邮政 区 划 的 外 码 (outcode) 
和 代表 城市 街道 的 内 码 (incode)。 外 人 码 是 一 个 或 两 个 字母 后 面 跟着 一 位 
或 两 位 数字 ， 或 者 是 一 个 或 两 个 字母 后 面 跟着 一 个 数字 和 一 个 字母 。 内 
码 永远 是 一 位 数字 后 面 跟着 两 个 字母 〈 除 C、I、K、0 和 V 以 外 的 任意 字 
母 一 一 合法 的 英国 邮政 编码 是 不 会 在 它 的 内 码 部 分 使 用 这 5 个 字母 的 )。 
内 码 和 外 码 之 间 要 用 一 个 空格 隔 开 。 


171 Kyverdale Road，London N16 6PS 
33 Main Street，Portsmouth，PO1 3AX 
18 High Street，London NW11 8AB 
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[A-Z]{1,2}\d[A-Z\d]? \d[ABD-HJLNP-UW-Z]{21} 


171 Kyverdale Road，London N16 6PS 


33 Main Street, Portsmouth, PO1 3AX 
18 High Street, London NW11 8AB 


在 这 个 模式 里 ，[A-Z]{1，2}\d 匹 配 一 个 或 两 个 字母 紧 跟 着 一 位 数 
字 , 随后 的 [A-Z\d]? 匹 配 一 个 可 选 的 字母 或 数字 字符 。 于 是 , [A-Z]{1， 
2}\d[A-Z\d]? 将 匹配 任何 一 种 合法 的 外 码 组 合 。 内 码 部 分 由 
\d[ABD-HJLNP-UW-Z] {2} 负 责 匹 配 ， 它 将 匹配 任意 一 位 数字 和 紧 随 其 
后 的 两 个 允许 用 在 内 码 里 的 字母 (A、B、D 到 H、J、L、N、P 到 U、W 到 Z)。 


注意 英国 邮政 编码 不 要 求 必须 以 大 写 形式 写 出 ， 所 以 在 使 用 
上 面 这 个 正则 表达 式 进行 匹配 时 一 般 用 不 着 区 分 字母 的 大 小 


写 。 





B.5 ”美国 社会 安全 号 码 ” 


美国 的 社会 安全 号 码 (social security number， 简 称 SSN 号 码 ) 由 3 组 
以 连 字 符 隔 开 的 数字 构成 : 第 1 组 包含 着 3 位 数字 ， 第 2 组 包含 着 2 位 数字 ， 
第 3 组 包含 着 4 位 数字 。 从 1972 年 起 ， 美 国政 府 开 始 根据 SSN 号 码 申请 人 
提供 的 住址 来 分 配 第 一 组 里 的 3 位 数字 。 


John Smith: 123-45-6789 


Q@ 中 华人 民 共 和 国 公民 身份 号 码 
可 能 是 15 位 或 者 18 位 。 前 6 位 是 户口 所 在 地 编码 ， 其 中 第 一 位 是 1-8; 此 后 是 出 生年 
月 日 ， 出 生年 份 的 前 两 位 只 能 是 18、19、20， 而 且 是 可 选 的 (兼顾 15 位 )， 月 份 中 
第 一 位 只 能 是 0 或 者 1， 日 期 的 第 一 位 只 能 是 0-3; 最 后 一 位 校 验 码 是 数字 或 者 Xx， 可 
选 ( 兼 顾 15 位 )。 对 应 的 正则 表达 式 可 以 写 为 : [1-8]\d{5}((18)|(19)|(28))?\d{2} 
[0-1]\d[0-3]\d{4}[\dx]?。 一 一 编者 注 
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正则 表达 式 


\d{3}-\d{2}-\d{4} 


John Smith: 123-45-6789 
\d{f{3}-\d{2}-\d{4} 将 依次 匹配 : 任意 3 位 数字 、 一 个 连 字 符 、 任 
意 2 位 数字 、 一 个 连 字 符 、 任 意 4 位 数字 。 












注意 从 理论 上 讲 ，SSN 号 码 可 以 是 任意 数字 组 合 ， 但 从 现实 

和 = 看 ， 它 们 必须 满足 以 下 几 项 要 求 。 首先 ， 在 一 个 合法 的 SSN 号 
码 里 不 可 能 出 现 全 零 字 段 ; 其 次 ， 第 1 组 数字 (到 目前 为 止 ) 
不 得 大 于 728 ( 因为 SSN 号 码 迄今 为 止 还 没 用 过 那么 大 的 数字 ， 

但 未 来 可 能 会 用 到 )。 不 过 ， 一 个 能 满足 上 述 要 求 的 模式 会 十 
分 的 复杂 , 因而 比较 简单 的 \d{3}-\d{2}-\d{4} 更 常见 一 些 。 


B.6 1IP 地 址 


趾 地 址 由 4 个 字 节 构成 (这 4 个 字 节 的 取 值 范围 都 是 0~255)。IP 地 址 通 
第 被 写成 4 组 以 .字符 隐 开 的 整数 (每 个 整数 由 1~3 位 数字 构成 )。 
localhost is 127.0.0.1. 


(((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))\.){3} 
ww((\d{1,2})|(1\d{2})| (2[0-4]\d)|(25[0-5])) 


localhost is 127.0.0.1. 

这 个 模式 使 用 了 一 系列 媒 套 子 表 达 式 。 我 们 先 来 说 说 由 4 个 子 表 达 式 
构成 的 (((\d{1， 2})|(1\d{2})|(2[0-4]\d)|(25[0-5])\.): 
(\d{1，2}) 匹 配 任 意 一 位 或 两 位 数字 (0~99);，(1\d{2}) 匹 配 以 1 开头 


附录 B 常见 问题 的 正则 表达 式 解 决 方案 117 


的 任意 三 位 数字 (100~199); (2[0-4]\d) 匹 配 整 数 200~249; (25[0-5]) 
匹配 整数 250~255。 这 几 个 子 表达 式 通过 | 操作 符 结合 为 一 个 更 大 的 子 表 
达 式 (其 含义 是 只 须 匹 配 这 4 个 子 表 达 式 之 一 即 可 )。 随后 的 \ .用 来 匹配 . 
字符 ， 它 与 前 4 个 子 表达 式 构 成 的 子 表 达 式 又 构成 了 一 个 更 大 的 子 表达 
式 , 而 接 下 来 的 {3} 表 明 需 要 重复 3 次 。 最后, 数值 范围 又 重 复 了 一 次 (这 
次 省 略 了 尾部 的 \.〉 以 匹配 IP 地 址 里 的 最 后 一 组 数字 。 通 过 把 4 组 以 .分 
隔 的 数字 的 取 值 范围 都 限制 在 0~255 之 间 ， 这 个 模式 准确 无 误 地 做 到 了 只 
匹配 合法 的 IP 地 址 ， 但 不 匹配 非法 的 人 地址 。 


注意 第 7 章 对 这 个 人 p 地 址 的 例子 做 了 详细 的 解释 . 


B.7 ”URL 地址 


对 URL 地 址 进行 匹配 是 一 个 有 着 相当 难度 的 任务 一 一 其 复杂 性 取决 
于 你 想 获得 多 么 精确 的 匹配 结果 。 在 最 简单 的 情况 下 ， 你 的 URL 匹 配 模 
式 至 少 应 该 匹配 到 以 下 内 容 : 协议 名 (http 或 https)、 一 个 主机 名 、 一 
个 可 选 的 端口 号 、 一 个 文件 路 径 。 


http://www.forta.com/blog 
https://www.forta.com:80/blog/index.cfm 
http://www.forta.com 
http://ben:password@www.forta.com/ 
http://localhost/index.php?ab=1&c=2 
http://localhost:8500/ 


正则 表达 式 
https?://[-\w.]+(:\d+)?(/([\w/_.]*)?)? 


http://www.forta.com/blog 
https://www.forta.com:80/blog/index.cfm 
http://www.forta.com 
http://ben:password@www.forta.com/ 
http://localhost/index.php?ab=1&c=2 
http://localhost:8500/ 
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[分 析 


https?:// 匹 配 http:// 或 https://〈? 使 得 字符 s 是 可 选 的 )。 
[-\w.]+ 匹 配 主 机 名 。(:\d+)? 匹 配 一 个 可 选 的 端口 号 (参见 上 例 中 的 
第 2 和 第 6 行 )。(/([\w/_.]*)?)? 负 责 匹 配 一 个 文件 路 径 : 外 层 的 子 表 
达 式 匹配 一 个 可 选 的 /字符 ， 内 层 的 子 表 达 式 匹配 那个 文件 路 径 本 身 。 正 
如 大 家 看 到 的 那样 ， 这 个 模式 不 能 正确 处 理 查 询 字 符 串 ， 也 不 能 正确 解 
读 嵌 在 URL 地 址 里 的 “username:password 〈 用 户 名 :口令 字 )”。 不 过 ， 对 
绝 大 多 数 URL 地 址 而 言 ， 这 个 模式 的 使 用 效果 匹配 到 主机 名 、 端 口号 
和 文件 路 径 ) 还 是 令 人 满意 的 。 


性 注意 URL 地 址 不 要 玫 须 以 大 号 形式 写 出 ， 所 以 在 使 用 上 面 
= 这 个 正则 表达 式 进 行 匹配 时 一 般 用 不 着 区 分 字母 的 大 小 写 . 


提示 。 如 果 你 还 想 匹 配 使 用 了 ftp 协 议 的 URL 地 址 ， 把 
https?:// 赫 换 为 (http|https|ftp) 即 可 .使 用 了 其 他 协议 
的 URL 地 址 也 可 以 按照 类 似 的 思路 来 匹配 。 





B.8 完整 的 URL 地 址 


下 面 是 一 个 更 完备 (也 更 慢 ) 的 URL 地 址 匹配 模式 ， 它 还 可 以 匹配 
URL 查 询 字 符 串 〈 嵌 在 URL 地 址 里 的 变量 信息 ， 这 些 信 息 与 URL 地 址 中 
的 网 址 部 分 要 用 一 个 ? 隅 开 ) 以 及 可 选 的 用 户 登 录 信 息 。 


http://www.forta.com/blog 
https://ww.forta.com:80/blog/index.cfm 
http://www.forta.com 
http://ben:password@www.forta.com/ 
http://localhost/index.php?ab=1&c=2 
http://localhost:8500/ 


正则 表达 式 


https?://(\w*:\w*@)?[-\w.]+(:\d+)?(/([\w/_.]*(\?\S+)?)?)? 
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结果 


http://www.forta.com/blog 
https://www.forta.com:80/blog/index.cfm 
http://ww.forta.com 
http://ben:passwordewww.forta.com/ 
http://localhost/index.php?ab=1&c=2 
http://localhost:8500/ 


Ea 

这 个 模式 是 在 前 一 个 例子 的 基础 上 改进 而 来 的 。 这 次 紧 跟 在 
https?:// 后 面 的 是 (\w*:\w*@)?， 它 将 匹配 杠 在 URL 字 符 串 里 的 用 户 
名 和 口令 字 ( 用 户 名 和 口令 字 要 用 : 隅 开 , 它们 的 后 面 还 跟着 一 个 @ 字 符 )， 
参见 这 个 例子 里 的 第 4 行 。 另 外 ， 这 次 在 路 径 信息 的 后 面 还 多 了 一 个 子 表 
达 式 (\?\S+)?， 它 负责 匹配 查询 字符 串 。 查 询 字 符 串 是 在 URL 字 符 串 里 
出 现在 ?后 面 的 文本 ， 这 些 文本 是 可 选 的 ， 所 以 这 个 子 表达 式 的 后 面 还 紧 
跟着 一 个 ?。 





2 注意 URL 地 址 不 要 求 必须 以 大 写 形式 给 出 ， 所 以 在 使 用 上 面 
人 := 这 个 正则 表达 式 进行 匹配 时 一 般 用 不 着 区 分 字母 的 大 小 写 。 


提示 。 能 不 能 总 是 使 用 这 个 更 完备 的 模式 来 取代 前 一 个 呢 ? 
从 理论 上 讲 ， 这 没有 什么 不 受 ， 但 在 实际 工作 中 ， 因 为 这 个 模 


式 比 较 复杂 、 处 理 速度 也 比较 慢 ， 所 以 如 果 没 有 特殊 的 必要 ， 
还 是 不 使 用 它 比 较 好 。 





B.9 电子 邮件 地 址 


用 一 个 正则 表达 式 来 匹配 电子 邮件 地 址 是 一 项 很 常见 的 任务 。 一 般 
来 说 ， 如 果 需 要 匹配 的 电子 邮件 地 址 比较 简单 ， 相 应 的 正则 表达 式 就 不 
会 很 复杂 。 


文本 | 


My name is Ben Forta，and my 
email address is ben@forta.com. 
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正则 表达 式 


(\W+\.)*\wW+Q(\W+\.)+[A-Za-Z]+ 


My name is Ben Forta, and my 
email address is ben@forta.com. 


(\w+\、.)*\w+ 负 责 匹 配 电子 邮件 地 址 里 的 用 户 名 部 分 (@ 之 前 的 所 
有 文本 ): (\w+\、.)* 匹 配 一 些 由 .结束 的 文本 的 零 次 或 多 次 重复 出 现 ， 
\w+ 匹 配 必 不 可 少 的 文本 (这 个 组 合 将 匹配 ben 和 ben .forta， 等 等 )。 
接 下 来 ，@ 匹 配 @ 字 符 本身 ，(\w+\、. ) 匹配 至 少 一 个 以 .结束 的 字符 串 ， 
[A-Za-z]+ 匹 配 顶级 域名 (com、edu、us 或 Uk， 等 等 )。 

合法 的 电子 邮件 地 址 必须 在 排版 格式 方面 同时 满足 许多 项 规定 。 这 
个 模式 不 能 用 来 匹配 每 一 种 可 能 的 电子 邮件 地 址 。 比 如 说 ， 这 个 模式 会 
认为 ben. .forta@forta.com 是 一 个 合法 匹配 (但 这 显然 不 是 一 个 合法 
的 电子 邮件 地 址 )， 它 不 能 用 来 匹配 以 PP 地址 做 为 主机 名 的 电子 邮件 地 址 
(但 这 种 电子 邮件 地 址 是 合法 的 )。 不 过 ， 因 为 绝 大 多 数 电 子 邮 件 地 址 都 
能 与 这 个 模式 相 匹 配 ， 所 以 你 不 妨 先 用 它 试 试 ， 如 果 效 果 不 佳 再 考虑 对 
之 进行 改进 。 


注意 电子 邮件 地 址 不 要 求 必须 以 大 写 形式 写 出 ， 所 以 在 使 用 上 





和 面 这 个 正则 表达 式 进行 匹配 时 一 般 用 不 着 区 分 字母 的 大 小 写 ， 


B.10 ” ”HTML 注释 


HTML 页 面 里 的 注释 必须 被 放 在 <! - -和 - -> 标签 之 间 ( 这 两 个 标签 必 
须 至 少 包含 两 个 连 字 符 ， 多 于 两 个 没有 关系 )。 在 浏览 〈 或 调试 ) Web 页 
面 的 时 候 ， 我 们 往往 需要 把 所 有 的 注释 都 找 出 来 。 


<!-- Start of page --> 
<HTML> 
<!-- Start of head --> 
<HEAD> 
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<TITLE>My Title</TITLE> <!-- Page title --> 
</HEAD> 

<!-- Body --> 

<BODY> 


<! -2,}.*2-{2,}> 


<!-- Start of page --> 
<HTML> 
<!-- Start of head --> 
<HEAD> 


<TITLE>My Title</TITLE> <!-- Page title --> 
</HEAD> 


<1-= -Body sw.” 
<BODY> 


<!-{2，} 匹 配 HTML 注 释 的 开始 标签 ， 也 就 是 <! 后 面 紧 跟着 两 个 
或 更 多 个 连 字 符 的 情况 。.*? 匹 配 HTML 注 释 的 文字 部 分 (注意 ， 这 里 
用 的 是 一 个 懒惰 型 元 字符 )。- {2，}> 匹 配 HTML 注 释 的 结束 标签 。 128 


。 注意 这 个 模式 匹配 两 个 或 更 多 个 连 字符 ， 所 以 还 可 以 用 来 查 
SE 找 CFML 注 释 (这 种 注释 的 开始 /结束 标签 里 包含 着 3 个 连 字 


符 )。 不 过 ， 这 个 模式 没有 对 HTML 注 释 的 开始 标签 和 结束 标 
签 所 包含 的 连 字 符 的 个 数 是 否 配对 进行 检查 ( 那 可 以 用 来 检查 
HTML 注 释 的 格式 是 否 有 误 )。 





B.11 JavaScript 注释 


JavaScript( 其 他 脚本 语言 如 ActionScript 和 ECMA Script 的 其 他 变 体 
等 ) 代码 里 的 注释 都 以 / /开头 。 正 如 刚才 那个 HTML 注 释 的 例子 所 示 ， 
把 某 给 定 页 面 里 的 所 有 注释 全 部 查找 出 来 是 很 有 用 的 。 

<SCRIPT LANGUAGE= "JavaScript "> 


// Turn off fields used only by replace 
function hideReplaceFields() { 
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document .getElementById('RegExReplace').disabled=true; 
document .getElementById('replaceheader').disabled=true; 
} 
/1/ Turn on fields used only by replace 
function showReplaceFields() { 
document .getElementById( 'RegExReplace').disabled=false; 
document .getElementById('replaceheader').disabled=false; 
} 


<SCRIPT LANGUAGE="JavaScript"> 
/1/ Turn off fields used only by replace 
function hideReplaceFields() { 
document .getElementById( 'RegExReplace').disabled=true; 
document .getElementById('replaceheader').disabled=true; 
} 
/l/l Turn on fields used only by replace 
function showReplaceFields() { 
document .getElementById('RegExReplace').disabled=false; 
document .getElementById('replaceheader').disabled=false; 
} 


分 析 
这 是 一 个 很 简单 的 模式 : //.* 匹 配 / /和 紧 随 其 后 的 注释 内 容 。 


注意 与 绝 大 多 数 正则 表达 式 实现 不 同 ， 在 ColdFusion 里 ， 总 
是 匹配 换行 符 。 因 此 ， 如 果 你 正在 使 用 的 是 ColdFusion， 你 将 


需要 把 这 个 模式 修改 成 使 用 懒惰 型 元 字符 的 样子 ， 把 .* 替 换 
为 .*?。 





B.12 信用 卡号 码 


言 用 卡号 码 本 身 是 否 合法 不 能 用 正则 表达 式 来 检查 ， 最 终 的 结论 要 
由 信用 卡 的 发 行 机 构 做 出 。 我 们 这 里 说 的 检查 是 指使 用 正则 表达 式 来 检 
查 信用 卡号 码 的 格式 是 否 符合 有 关 规定 ， 其 主要 目的 是 为 了 一 一 在 对 信 
用 卡号 码 做 进一步 处 理 之 前 一 一 把 有 打字 错误 的 信用 卡号 码 〈 比 如 多 输 
入 一 位 数字 或 少 输入 一 位 数字 等 情况 ) 排除 在 外 。 
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注意 这 里 使 用 的 模式 都 有 这 样 一 个 前 提 假 设 : 信用 卡号 码 里 
您 中” 空格 和 连 字 符 已 提前 被 去 掉 ， 一 般 来 说 ， 在 使 用 正则 表达 式 
对 信用 卡号 码 进 行 匹配 处 理 之 前 , 先 把 其 中 的 非 数 字 字 符 去 掉 

会 给 匹配 操作 带 来 很 多 便利 ;但 这 只 是 经 验 之 谈 ， 你 应 该 根据 

具体 情况 来 掌握 . 


所 有 的 信用 卡 都 遵守 着 同一 种 基本 的 编码 模式 一 一 以 特定 的 数字 
序列 开头 ， 号 码 的 总 位 数 是 一 个 固定 的 值 。 我 们 先 来 看 看 MasterCard 卡 
的 情况 。 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


5[1-5]\d{14} 
结果 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


MasterCard 卡 的 号 码 总 长 度 是 16 位 数字 ; 第 1 位 数字 永远 是 5S， 第 2 位 
数字 是 1 到 5 之 一 。5[1-5] 匹 配 前 两 位 数字 ; {14} 匹 配 随后 的 14 位 数字 。 
Visa 卡 的 情况 稍微 复杂 一 些 。 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 
Visa 2: 4123456789012345 
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Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


4\d{12}(\d{3})? 


结果， 

MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


分析 

Visa 卡 的 第 1 位 号 码 永远 是 4, 总 长 度 是 13 或 16 位 数字 (不 包括 14 或 15， 
所 以 这 里 不 能 使 用 一 个 数字 区 间 )。4 匹 配 字符 4 本 身 ，\d{12} 匹 配 接 下 
来 的 12 位 数字 ，(\d{3})? 匹 配 可 选 的 最 后 3 位 数字 。 


用 来 匹配 美国 运通 卡号 的 模式 相对 要 简单 得 多 。 
Ez3 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


正则 表达 式 
3[47]\d{13} 


Ey 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


分 析 
关 国 运通 卡 的 号 码 总 长 度 是 15 位 ,前 两 位 号 码 必须 是 34 或 37。3[47] 
匹配 前 两 位 数字 ，\d{13} 匹 配 剩余 的 13 位 数字 。 
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用 来 匹配 Discover 卡 号 的 模式 也 很 简单 。 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


正则 表达 式 
6011\d{14} 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 
Visa 2: 4123456789012345 


Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


Discover 卡 的 号 码 总 长 度 是 16 位 ， 前 4 位 号 码 必 须 是 6011。6011\d 
{14} 解 决 了 问题 。 
Diners Club 卡 的 情况 稍微 复杂 一 些 。 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


正则 表达 式 
(30[0-5]136\d138\d)\d{11} 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 
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Ea 


Diners Club 卡 的 号 码 总 长 度 是 14 位 ， 必 须 以 300 到 305、36 或 38 开 头 。 


如 果 前 三 位 号 码 是 300 到 305， 后 面 必须 再 有 11 位 数字 ; 如 果 前 两 位 号 码 
是 36 或 38， 则 后 面 必须 再 有 12 位 数字 。 我 们 这 里 采用 了 一 个 比较 简单 的 
办 法 : 先 匹 配 前 3 位 数字 一 一 (38[6-5] |36\d|38\d) 包 含 3 个 子 表达 式 ， 
只 要 其 中 之 一 得 到 匹配 即 可 ; 其 中 36[0-5] 匹 配 300~305, 36\d 匹 配 以 36 
升 头 的 任意 3 位 数 ，38\d 匹 配 以 38 开 头 的 任意 3 位 数 。 最 后 ，\d{f11} 匹 配 
剩余 的 11 位 数字 。 


现在 ， 只 要 把 上 述 5 种 信用 卡号 码 的 匹配 模式 组 合成 一 个 更 大 的 模式 


就 可 以 全 面 解决 这 个 问题 了 : 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


正则 表达 式 | 


(S[1-5] \d{14})| (4\d{12}(\d{3})?)| (3(47] \d{13})| 
w{(6011\d{14})|((306[0-5]|36\d|38\d)\d{11}) 


结果 


MasterCard: 5212345678901234 
Visa 1: 4123456789012 

Visa 2: 4123456789012345 
Amex: 371234567890123 
Discover: 601112345678901234 
Diners Club: 38812345678901 


分 析 
这 个 模式 用 | 操作 符 (正则 表达 式 语言 中 的 逻辑 或 操作 符 ) 把 前 面 得 


到 的 5 个 模式 结合 到 了 一 起 。 有 了 它 ， 我 们 就 可 以 一 次 完成 对 5 种 常见 信 
用 卡 的 号 码 格式 进行 检查 了 。 
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多 注意 这 里 使 用 的 模式 只 能 检查 信用 卡 的 号 码 是 不 是 以 正确 
的 数字 序列 开头 和 是 不 是 有 着 正确 的 总 长 度 。 不过， 并 非 所 有 
以 4 开头 的 13 位 数字 都 是 合法 的 Visa 卡 号 一 一 信用 卡号 码 还 必 
须 满足 一 个 名 为 Mod 10 的 数学 算法 (这 个 算法 适用 于 所 有 的 信 
用 卡 类 型 )。 在 对 信用 卡 进行 编程 处 理 的 时 候 ，Mod 10 算 法 是 
一 个 必 不 可 少 的 重要 环节 ， 但 这 项 检查 不 属于 正则 表达 式 的 工 
作 一 一 因为 正则 表达 式 不 涉及 数学 运算 。 


B.13 ”小结 


在 本 附录 里 ， 你 看 到 了 我 们 在 前 面 的 章程 里 介绍 的 许多 概念 和 思路 
在 实际 工作 中 的 应 用 例子 。 根 据 你 遇 到 的 具体 问题 ， 这 些 例子 里 的 模式 
或 者 可 以 直接 拿 过 来 使 用 ， 或 者 需要 稍 做 改动 。 我 们 把 这 些 模式 作为 欢 
迎 大 家 进入 正则 表达 式 世 界 的 礼物 ， 希 望 它们 能 帮助 你 拓展 思路 并 在 此 
基础 上 构造 出 更 精彩 更 实用 的 模式 来 。 


附录 C 
正则 表达 式 测 试 器 


测试 和 试用 正则 表达 式 必 须 借 助 于 一 个 应 用 软件 或 一 种 编程 语言 
(很 可 能 还 需要 编写 一 些 代码 )。 为 了 帮助 你 学 习 和 测试 正则 表达 式 ， 我 
们 在 本 书 的 配套 网 站 上 提供 了 一 个 可 以 独立 使 用 的 Regular Expression 
Tester〈 正 则 表达 式 测试 器 ) 软件 。 本 附录 将 简要 地 对 这 个 软件 的 使 用 方 
法 做 一 个 介绍 。 





C.1 Regular Expression Tester 软 件 


正则 表达 式 不 是 一 个 应 用 程序 ， 你 不 能 通过 点 击 某 个 链接 的 办 法 来 
使 用 它们 。 它 们 需要 你 编写 正则 表达 式 代 码 或 是 使 用 一 个 支持 正则 表达 
式 的 应 用 软件 。 


为 了 帮助 你 掌握 正则 表达 式 的 用 法 , 我 们 编写 了 一 个 简单 的 Web 应 用 
程序 ， 它 可 以 让 你 使 用 一 个 web 浏览 器 来 测试 和 试用 正则 表达 式 。 

这 个 应 用 程序 只 有 一 个 页 面 ， 该 页 面包 含 着 一 个 HTML 表 单 和 所 有 
的 正则 表达 式 处 理 功 能 。 你 只 要 把 有 关 的 文件 下 载 到 你 的 计算 机 里 就 可 
以 使 用 这 个 应 用 程序 了 。 这 个 应 用 程序 有 许多 种 版 本 ， 其 中 包括 一 个 对 
应 于 Microsoft ASP 和 ASPNET 以 及 一 个 对 应 于 Macromedia ColdFusion 
的 版 本 (它们 都 需要 访问 相应 的 服务 器 软件 ) 和 一 个 纯 客 户 端的 

JavaScript 版 本 。 


和 提示 “使用 多 个 版本 可 以 帮助 大 家 测试 个 术 的 半 容 性。 
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注意 我 们 将 根据 需要 或 读者 的 要 求 进一步 提供 针对 其 他 平 
台 的 版 本 。 如 果 你 想 获 得 一 份 这 个 测试 器 的 副本 或 是 希望 了 解 
都 有 哪些 版 本 可 供 选 择 , 访问 我 们 在 本 附录 的 最 后 一 节 给 出 的 
URL 地 址 . 






C.1.1 进行 查找 操作 


这 个 应 用 程序 支持 查找 和 替换 操作 。 如 果 你 想 进 行 查找 操作 ， 请 按 
以 下 步骤 进行 。 


(1) 把 这 个 应 用 程序 的 页 面 加载 到 你 的 浏览 器 里 。 

(2) 单 击 “Find” 按 钮 。 

(3) 在 顶部 的 字段 里 输入 你 的 正则 表达 式 。 

(4) 如 有 必要 ， 选 中 “Case Sensitive” 单 选 框 。 

(5) 在 那个 较 大 的 文本 框 里 输入 《或 通过 前 贴 操 作 ) 将 被 搜索 的 原始 
文本 。 

(6) 单 击 “Match Now” 按 钮 。 


查找 结果 将 以 一 个 表格 的 形式 显示 在 这 个 表单 的 下 部 。 
C.1.2 进行 蔡 换 操作 


替换 操作 需要 用 到 两 个 模式 。 如 果 你 想 进行 替换 操作 ， 请 按 以 下 步 
又 进行 。 

(1) 把 这 个 应 用 程序 的 页 面 加 载 到 你 的 浏览 器 里 。 

(2) 单 击 “Replace” 按 钮 。 

(3) 在 项 部 的 字段 里 输入 搜索 正则 表达 式 。 

(4) 在 第 二 个 字段 里 输入 替换 正则 表达 式 。 

(5) 如 有 必要 ， 请 选中 “Case Sensitive” 单 选 框 。 

(6) 在 那个 较 大 的 文本 框 里 输入 (或 通过 剪贴 操作 ) 将 被 搜索 的 原始 
文本 。 

(7) 单 击 “Match Now” 按 钮 。 
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替换 结果 将 显示 在 这 个 表单 的 下 部 。 


C.2 获得 这 套 应 用 程序 的 一 份 副本 


要 想 获 得 这 套 应 用 程序 的 一 份 副本 ， 请 访问 本 书 的 配套 网 页 。 

http: //www. forta. com/books/0672325667/ 

该 页 面 的 内 容 主要 包括 以 下 几 项 。 

口 Regular Expression Tester 软 件 的 现 有 版 本 和 下 载 链接 。 

口 使 用 该 软件 的 在 线 版 本 来 测试 各 种 正则 表达 式 。 

口 其 他 正则 表达 式 资 源 的 访问 链接 。 

口 本 书 的 勘误 表 〈 欢 迎 大 家 批评 指正 )。 

口 如 果 你 有 兴趣 把 这 个 正则 表达 式 测试 器 软件 移植 到 其 他 平台 上 去 
的 话 ， 你 还 可 以 在 那里 找到 申请 加 入 相关 团队 的 联系 办 法 。 

最 后 ， 欢 迎 大 家 进入 正则 表达 式 的 精彩 世界 ! 
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